✅ Robots.txt или стандарт за изключване на роботи и обхождане на търсачки

Съдържание

Здравейте на всички, започвам с този урок по robots.txt, надявам се да ви хареса

Позволете на всички роботи да посещават всички файлове, които се съхраняват в основната директория на мрежата:

 Потребителски агент: * Забранено:

Предотвратете достъпа до всички роботи и всички файлове, съхранявани в основната директория:

 Потребителски агент: * Забранено: /

Разрешете достъп само на един робот, в този пример само Google ще може да обхожда

 User-agent: googlebot Disallow: User-agent: * Disallow: /

Най-популярните роботи имат име за използване в потребителски агент
googlebot => за Google
msnbot => MSN Търсене
yahoo-slurp => Yahoo!
scrubby => Scrub The Web
robozilla => DMOZ Checker
ia_archiver => Alexa / Wayback
baiduspider => Baidu
Има и по -специфичните роботи, като тези в изображенията
googlebot-image => Google Изображение
googlebot-mobile => Google Mobile
Друг пример, така че всички поддиректории, които включват заместващ знак (/), трябва да бъдат блокирани, само те, с изключение на всички други файлове и директории, които не съдържат заместващи символи, номинално системните или задните крайни директории са блокирани:

 Потребителски агент: * Disallow: / cgi-bin / Disallow: / images / Disallow: / tmp / Disallow: / adminstrador /

Предотвратете проследяването на определен файл

 Потребителски агент: * Забранено: /page.htm

Това се използва много, когато искаме да премахнем страница, която дава грешка 404, или да премахнем страница от резултатите от търсенето, като по този начин предотвратим нейното обхождане.
Управлявайте честотата на пълзящите роботи
От Анализ на Google и от инструменти за уеб администратори можете да видите статистиката, можете също така да видите, че понякога някои роботи отнемат много време, за да прегледат нашия сайт и да подадат заявки към сървъра, роботите консумират честотна лента и ресурси, сякаш са просто друг посетител.
Има начин роботите да не излязат извън контрол, можем да кажем на всеки един
Потребителски агент: googlebot Закъснение при обхождане: 30
С това информираме робота Google да изчака 30 секунди между всяко обхождане. Бъдете внимателни, защото забавянето на обхождането може да не се поддържа от всички търсачки, както правят Bing и Google.
Официалният уебсайт на robots.txt Това е http://www.robotstxt.org/, където ще намерим имената на всички роботи, спецификации за кода. Тук се разкрива, че роботите служат за стандартизиране на тези, които трябва да бъдат проследени и се използват в други платформи за проследяване и валидиране на html, валидиране на връзки, индексиране на информация, актуализиране на съдържание в търсачките, защита на уебсайтове.Хареса ли ви и помогнахте на този урок?Можете да възнаградите автора, като натиснете този бутон, за да му дадете положителна точка