מה זה robots.txt ?
חמישי, 24 ביולי 2008למרות שרבים מבעלי האתרים והבלוגים יודעים מה זה robots.txt, שמתי לב כי ישנם מספר ניואנסים ושאלות החוזרות על עצמן בנושא, אפילו ע”י וובמסטרים מנוסים. בפוסט זה אני אנסה לסכם את הנושא, כמו גם להוסיף מספר הדגשים חשובים. משתמשים מנוסים ימצאו את החלק הראשון טריוויאלי, אבל אני ממליץ בחום לקרוא את החלק השני הכולל את ההדגשים.
robots.txt הינו קובץ טקסט, בפורמט מוסכם, שמאפשר לוובמסטר לתת הנחיות לבוטים (ספיידרים של מנועי החיפוש), לגבי חלקי אתר שאליהם נאסר עליו להכנס. כאשר מנוע רוצה להכנס לאתר www.your-site.com, הוא קודם כל פונה ל - www.your-site.com/robots.txt ומנסה למצוא בו אינפורמציה הנוגעת לו ספציפית, ואם לא קיימת כזו, אינפורמציה הנוגעת לכלל הבוטים.
את הקובץ יש ליצור באמצעות עורך טקסט פשוט, כגון notepad, ולהעלותו לספריה הראשית של האתר.
פורמט הקובץ הינו מקטעים של הנחיות הבנויים מ:
1. שם הבוט - כאן ניתן לספק שם ספציפי, או * כדי לייצג את כל הבוטים.
2. רשימת ספריות אליהן אסור להכנס.
דוגמה 1 - מניעה מכל הבוטים להכנס לכל הספריות והקבצים באתר:
User-agent: *
Disallow: /
דוגמה 2 - מתן אפשרות לכל הבוטים להכנס לכל הספריות והקבצים באתר:
User-agent: *
Disallow:
דוגמה 3 - מניעה מכל הבוטים להכנס לשתי ספריות ספציפיות באתר:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
דוגמה 4 - מניעה מבוט ספציפי להכנס להכנס לכל הספריות והקבצים באתר:
User-agent: BadBot
Disallow: /
דוגמה 5 - מתן אפשרות רק לגוגל להכנס לכל הספריות והקבצים באתר. כל שאר הבוטים - חסומים.
User-agent: Google
Disallow:User-agent: *
Disallow: /
דוגמה 6 - מניעת כניסה לקובץ ספציפי:
User-agent: *
Disallow: /~joe/junk.html
הדגשים:
1. קובץ ה - robots.txt אינו מונע כניסה לספריות והקבצים! הבוט יכול לבחור אם למלא את ההנחיות או לא. כמובן שהבוטים של המנועים הגדולים ממלאים אחר ההנחיות, אבל חשוב לזכור שלא מדובר במניעה טכנית מהבוט להכנס.
2. בהמשך ישיר ל - 1, אומנם הקובץ ימנע כניסה, אולם, אם קיים לינק ישיר ממקור אחר לקובץ שאנחנו מעוניינם לחסום - מנועי החיפוש יוכלו להוסיף אותו לאינדקס שלהם באמצעות המידע שיאספו מהעמוד שמכיל את הלינק.
3. הבוטים יחפשו קודם כל הנחיות ספציפיות המיועדות להם - אם קיימות הנחיות כאלו, הם ימלאו אחר הנחיות אלו בלבד ויתעלמו מהשאר.
4. גם אם אין ברצונכם למנוע מהבוטים להכנס לספריות מסויימות, אני ממליץ להעלות קובץ robots.txt המאפשר כניסה לכל הבוטים (דוגמה 2 למעלה), וזאת כדי למנוע מצב הקיים ברבות מפטלפורמות בנית האתרים, היוצרות עמוד ברירת מחדל לכל עמוד שאינו בנמצא (ניתן לקורא על כך בפוסט הזה), מה שעלול לבלבל את מנועי החיפוש ולמנוע אינדוקס תקין של האתר.
















