Съдържание
Когато търсачките пристигнат на уебсайт, те започват да търсят файла robots.txt, за да го прочетат. Това ще зависи от съдържанието му, така че паякът на търсачката да продължи в сайта или да отиде на друг.Файлът robots.txt съдържа списък със страници, които могат да бъдат индексирани от търсачката, като от своя страна избирателно ограничават достъпа до определени търсачки.
Това е ASCII файл, който трябва да се намира в корена на сайта. Командите, които може да съдържа, са:
Потребител на агент: Използва се за определяне кой робот ще следва представените поръчки.
Не позволявайте: Използва се за идентифициране на кои страници ще бъдат изключени по време на процеса на анализ от търсачката. Важно е всяка страница, която трябва да бъде изключена, да има отделни редове и също така да започва със символа /. С тази символика се уточнява; към „всички страници на уебсайта“.
Изключително важно е файлът robots.txt да няма празни редове.
Някои примери са показани по -долу;
- Когато искате да изключите всички страници; Потребителският агент е: Не позволявайте: /.
- Ако целта не е да се изключи която и да е страница, тогава файлът robotos.txt не трябва да съществува на уебсайта, тоест всички страници на сайта ще бъдат посещавани еднакво.
- Когато даден робот бъде изключен, той ще бъде:
- Потребител на агента: Име на робот Не позволявайте: / Потребител на агента: * Не разрешавайте:
- Когато дадена страница е изключена; Потребител на агента: * Не позволявайте: /directory/path/page.html
- Когато всички страници на директория са изключени от уебсайта със съответните им подпапки, това ще бъде; Потребител на агента: * Не позволявайте: / директория /
Друга функция е да се предотврати индексирането на дублиращо се съдържание, намерено на сайта, за да не бъде санкционирано.
Други съображения, които трябва да се вземат предвид, са, че някои роботи могат да игнорират инструкциите, представени в този файл, и трябва също така да е ясно, че файлът е публичен, тъй като всеки, който пише www.example.com/robots.txt, може да има достъп до него.
Сега въпросът може да бъде; Как да генерирам файла robots.txt?
Всъщност е доста просто, тъй като е текстов документ с името "robots.txt" и след това го качва в корена на домейна на страницата, там търсачките ще отидат да го търсят за четене.
Основен файл robots.txt може да бъде:
Потребителски агент: *
Забрани: / частно /
Генерират се инструкции за отказ на достъп до директория, която ще бъде „частна“ за всички търсачки.
Командата определя, че е адресирана до всички роботи (User-agent: *), като посочва, че директорията е забранена (Disallow: / private /).
Параметърът, който се използва за търсачката на Google е; Потребителски агент: Googlebot
Както бе споменато по -горе, използването му в SEO се използва за ограничаване на достъпа на роботи до дублиращо се съдържание.Хареса ли ви и помогнахте на този урок?Можете да възнаградите автора, като натиснете този бутон, за да му дадете положителна точка