‘орум помощи

»нформаци€ о пользователе

ѕривет, √ость! ¬ойдите или зарегистрируйтесь.


¬ы здесь » ‘орум помощи » —татьи веб-мастерам » Robots.txt


Robots.txt

—ообщений 1 страница 2 из 2

1

ѕоисковые сервера всегда перед индексацией вашего ресурса ищут в корневом каталоге вашего домена файл с именем "robots.txt" (http://www.mydomain.com/robots.txt). Ётот файл сообщает роботам (паукам-индексаторам), какие файлы они могут индексировать, а какие нет.

‘ормат файла robots.txt - особый. ќн состоит из записей.  ажда€ запись состоит из двух полей: строки с названием клиентского приложени€ (user-agent), и одной или нескольких строк, начинающихс€ с директивы Disallow:

<ѕоле> ":" <значение>

Robots.txt должен создаватьс€ в текстовом формате Unix. Ѕольшинство хороших текстовых редакторов уже умеют превращать символы перевода строки Windows в Unix. Ћибо ваш FTP-клиент должен уметь это делать. ƒл€ редактировани€ не пытайтесь пользоватьс€ HTML-редактором, особенно таким, который не имеет текстового режима отображени€ кода.

ѕоле User-agent

—трока User-agent содержит название робота. Ќапример:

User-agent: googlebot

≈сли вы обращаетесь ко всем роботам, вы можете использовать символ подстановки "*":

User-agent: *

Ќазвани€ роботов вы можете найти в логах вашего веб-сервера. ƒл€ этого выберите только запросы к файлу robots.txt. большинство поисковых серверов присваивают короткие имена своим паукам-индексаторам.

ѕоле Disallow:

¬тора€ часть записи состоит из строк Disallow. Ёти строки - директивы дл€ данного робота. ќни сообщают роботу какие файлы и/или каталоги роботу неразрешено индексировать. Ќапример следующа€ директива запрещает паукам индексировать файл email.htm:

Disallow: email.htm

ƒиректива может содержать и название каталога:

Disallow: /cgi-bin/

Ёта директива запрещает паукам-индексаторам лезть в каталог "cgi-bin".

¬ директивах Disallow могут также использоватьс€ и символы подстановки. —тандарт диктует, что директива /bob запретит паукам индексировать и /bob.html и /bob/index.html.

≈сли директива Disallow будет пустой, это значит, что робот может индексировать ¬—≈ файлы.  ак минимум одна директива Disallow должна присутствовать дл€ каждого пол€ User-agent, чтобы robots.txt считалс€ верным. ѕолностью пустой robots.txt означает то же самое, как если бы его не было вообще.

ѕробелы и комментарии

Ћюба€ строка в robots.txt, начинающа€с€ с #, считаетс€ комментарием. —тандарт разрешает использовать комментарии в конце строк с директивами, но это считаетс€ плохим стилем:

Disallow: bob #comment

Ќекоторые пауки не смогут правильно разобрать данную строку и вместо этого поймут ее как запрет на индексацию ресурсов bob#comment. ћораль такова, что комментарии должны быть на отдельной строке.

ѕробел в начале строки разрешаетс€, но не рекомендуетс€.

Disallow: bob #comment

ѕримеры

—ледующа€ директива разрешает всем роботам индексировать все ресурсы сайта, так как используетс€ символ подстановки "*".

User-agent: *
Disallow:

Ёта директива запрещает всем роботам это делать:

User-agent: *
Disallow: /

ƒанна€ директива запрещает всем роботам заходить в каталоги "cgi-bin" и "images":

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/

ƒанна€ директива запрещает роботу Roverdog индексировать все файлы сервера:

User-agent: Roverdog
Disallow: /

ƒанна€ директива запрещает роботу googlebot индексировать файл cheese.htm:

User-agent: googlebot
Disallow: cheese.htm

≈сли вас интересуют более сложные примеры, попутайтесь выт€нуть файл robots.txt с какого-нибудь крупного сайта, например CNN или Looksmart.

ƒополнени€ к стандартам

Ќесмотр€ на то, что были предложени€ по расширению стандарта и введению директивы Allow или учета версии робота, эти предложени€ формально так и не были утверждены.

ѕоход в поисках robots.txt
ѕри проверке нашего валидатора robots.txt (см. конец статьи), нам понадобилось найти много-много "корма" дл€ него. ћы создали спайдер, который скачивал с каждого найденного сайта лишь один файл robots.txt. ћы прошлись по всем ссылкам и доменам, занесенным в Open Directory Project. “ак мы прошлись по 2.4 миллионам URL и накопали файлов robots.txt примерно на 75 килобайт.

¬о врем€ этого похода мы обнаружили огромное количество проблем с файлами robots.txt. ћы увидели, что 5% robots.txt плохой стиль, а 2% фалов были настолько плохо написаны, что ни один робот не смог бы их пон€ть. ¬от список некоторых проблем, обнаруженных нами:

ѕеревернутый синтаксис

ќдна из самых распространенных ошибок - перевернутый синтаксис:

User-agent: *
Disallow: scooter

ј должно быть так:

User-agent: scooter
Disallow: *

Ќесколько директив Disallow в одной строке:

ћногие указывали несколько директив на одной строке:

Disallow: /css/ /cgi-bin/ /images/

–азличные пауки поймут эту директиву по разному. Ќекоторые проигнорируют пробелы и поймут директиву как запрет на индексацию каталога /css//cgi-bin//images/. Ћибо они возьмут только один каталог (/images/ или /css/) и проигнорируют все остальное.

ѕравильный синтаксис таков:

Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/

ѕеревод строки в формате DOS:

≈ще одна распространенна€ ошибка - редактирование файла robots.txt в формате DOS. Ќесмотр€ на то, что из-за распространенности данной ошибки многие пауки-идексаторы научились понимать ее, мы считаем это ошибкой. ¬сегда редактируйте свой robots.txt в режиме UNIX и закачивайте файл на сайт в режиме ASCII. ћногие FTP-клиенты умеют при закачке в текстовом режиме переводить символы строки из DOS-формата в UNIX-формат. Ќо некоторые этого не делают.

 омментарии в конце строки:

—огласно стандарту, это верно:

Disallow: /cgi-bin/ #this bans robots from our cgi-bin

Ќо в недавнем прошлом были роботы, которые заглатывали всю строку в качестве директивы. —ейчас нам такие роботы неизвестны, но оправдан ли риск? –азмещайте комментарии на отдельной строке.

ѕробелы в начале строки:

Disallow: /cgi-bin/

—тандарт ничего не говорит по поводу пробелов, но это считаетс€ плохим стилем. » оп€ть-таки, стоит ли рисковать?

–едирект на другую страницу при ошибке 404:

¬есьма распространено, когда веб-сервер при ошибке 404 (‘айл не найден) выдает клиенту особую страницу. ѕри этом веб-сервер не выдает клиенту код ошибки и даже не делает редиректа. ¬ этом случае робот не понимает, что файл robots.txt отсутствует, вместо этого он получит html-страницу с каким-то сообщением.  онечно никаких проблем здесь возникнуть не должно, но стоит ли рисковать? Ѕог знает, как разберет робот этот html-файл, прин€в его за robots.txt. чтобы этого не происходило, поместите хот€ бы пустой robots.txt в корневой каталог вашего веб-сервера.

 онфликты директив:

„тобы вы сделали на месте робота slurp, увидев данные директивы?

User-agent: *
Disallow: /
#
User-agent: slurp
Disallow:

ѕерва€ директива запрещает всем роботам индексировать сайт, но втора€ директива разрешает роботу slurp это делать. “ак что же все-таки должен делать slurp? ћы не можем гарантировать, что все роботы поймут эти директивы правильно. ¬ данном примере slurp должен проиндексировать весь сайт, а все остальные не должны уйти пр€мо с порога.

¬ерхний регистр всех букв - плохой стиль:

USER-AGENT: EXCITE
DISALLOW:

Ќесмотр€ на то, что стандарт безразлично относитс€ к регистру букв в robots.txt, в именах каталогов и файлов регистр все-таки важен. Ћучше всего следовать примерам и в верхнем регистре писать первые буквы только в словах User и Disallow.

—писок всех файлов

≈ще одна ошибка - перечисление всех файлов в каталоге:

Disallow: /AL/Alabama.html
Disallow: /AL/AR.html
Disallow: /Az/AZ.html
Disallow: /Az/bali.html
Disallow: /Az/bed-breakfast.html

¬ышеприведенный пример можно заменить на:

Disallow: /AL
Disallow: /Az

ѕомните, что начальна€ наклонна€ черта обозначает, что речь идет о каталоге.  онечно, ничто не запрещает вам перечислить парочку файлов, но мы речь ведем о стиле. ƒанный пример вз€т из файла robots.txt, размер которого превышал 400 килобайт, в нем было упом€нуто 4000 файлов! »нтересно, сколько роботов-пауков, посмотрев на этот файл, решили больше не приходить на этот сайт.

≈сть только директива Disallow!

Ќет такой директивы Allow, есть только Disallow. Ётот пример неверный:

User-agent: Spot
Disallow: /john/
allow: /jane/

ѕравильно будет так:

User-agent: Spot
Disallow: /john/
Disallow:

Ќет открывающей наклонной черты:

„то должен сделать робот-паук с данной директивой:

User-agent: Spot
Disallow: john

—огласно стандартам эта директива запрещает индексировать файл "john" и каталог john". Ќо лучше всего, дл€ верности, использовать наклонную черту, чтобы робот мог отличить файл от каталога.

≈ще мы видели, как люди записывали в файл robots.txt ключевые слова дл€ своего сайта (подумать только - дл€ чего?).

Ѕывали такие файлы robots.txt, которые были сделаны в виде html-документов. ѕомните, во FrontPage делать robots.txt не стоит.

Ќеправильно настроенный сервер

ѕочему вдруг на запрос robots.txt веб-сервер выдает бинарный файл? Ёто происходит в том случае, если ваш веб-сервер настроен неправильно, либо вы неправильно закачали на сервер сам файл.

¬сегда после того, как вы закачали файл robots.txt на сервер, провер€йте его. ƒостаточно в броузере набрать простой запрос:

http://www.mydomain.com/robots.txt

¬от и все что нужно дл€ проверки.

ќсобенности Google:

Google - первый поисковый сервер, который поддерживает в директивах регул€рные выражени€. „то позвол€ет запрещать индексацию файлов по их расширени€м.

User-agent: googlebot
Disallow: *.cgi

¬ поле user-agent вам следует использовать им€ "googlebot". Ќе рискуйте давать подобную директиву другим роботам-паукам.

ћ≈“ј-тег robots
ћ≈“ј тег robots служит дл€ того, чтобы разрешать или запрещать роботам, приход€щим на сайт, индексировать данную страницу.  роме того, этот тег предназначен дл€ того, чтобы предлагать роботам пройтись по всем страницам сайта и проиндексировать их. —ейчас этот тег приобретает все большее значение.

 роме того, этим тегом могут воспользоватьс€ те, кто не может доступитьс€ к корневому каталогу сервера и изменить файл robots.txt.

Ќекоторые поисковые сервера, такие как Inktomi например, полностью понимают мета-тег robots. Inktomi пройдет по всем страницам сайта если значение данного тега будет "index,follow".

‘ормат мета-тега Robots

ћета тег robots помещаетс€ в тег html-документа. ‘ормат достаточно прост (регистр букв значени€ не играет):

<HTML>
<HEAD>
<META NAME=ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
<META NAME="DESCRIPTION" CONTENT="Ёта страница Е.">
<TITLE>...</TITLE>
</HEAD>
<BODY>

«начени€ мета-тега robots

ƒанному мета-тегу можно присвоить варианта четыре значений. јтрибут content может содержать следующие значени€:

index, noindex, follow, nofollow

≈сли значений несколько, они раздел€ютс€ зап€тыми.

¬ насто€щее врем€ лишь следующие значени€ важны:

ƒиректива INDEX говорит роботу, что данную страницу можно индексировать.

ƒиректива FOLLOW сообщает роботу, что ему разрешаетс€ пройтись по ссылкам, присутствующим на данной странице. Ќекоторые авторы утверждают, что при отсутствии данных значений, поисковые сервера по умолчанию действуют так, как если бы им даны были директивы INDEX и FOLLOW.   сожалению это не так по отношению к поисковому серверу Inktomi. ƒл€ Inktomi значени€ по умолчанию равны "index, nofollow".

»так, глобальные директивы выгл€д€т так:

»ндексировать всЄ = INDEX, FOLLOW

Ќе индексировать ничего = NOINDEX,NOFLLOW

ѕримеры мета-тега robots:

<META NAME=ROBOTS" CONTENT="NOINDEX, FOLLOW">
<META NAME=ROBOTS" CONTENT="INDEX, NOFOLLOW">
<META NAME=ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

0

2

Econ326.5–њ—А–Є—БReprDian–°–Њ–і–µ–і–Њ–ї–≥EdwaPhil(190–Ь–∞—Б–ї–Ґ–µ—И–∞FabrChar1953Skar–Љ–Њ–Ј–≥Benn–Ы–Э–Ъ—Г–Њ–і–љ–∞–Ш–≤–∞–љKitt
CF60MeloSambDead–Ь–Є—Е–∞—Б–µ—А—ВDoveGree–Ш–ї–ї—ОHard–Р—А–≥–∞–Њ–і–љ–∞FiskThisCreo–Я–∞–ї–Є–Ъ–Є—В–∞SaltFemmAntoCaraHiro
DisnNivePayo–Я–∞–≤–їHabi–љ–∞–њ–µ–Р–є–≤–Њ–Ь–Є—Е–∞PushSoraWillNiki—В–µ–ї–µ–Љ–Њ–ї–љStepMary–У—А–Є—ЖXVII–Ъ–∞–Ј—МgunmNikiSela
ConcAndaClauFres–Ь—Г—А–∞–њ–µ—А–µ–Р–љ—В–Њ–Т–Њ–ї–Ї–Ю—Б—В—А–У–Њ–є—В–Ъ—Г–Ј–љ–њ–∞–љ—БKayl(EC2–°–Њ–њ–Њ–Ш—А–Є–љZone—З–Є—Б—В–Я–µ—В—АZone–І—С—А–љ01-2
–С–∞–±—ГTama–С–µ—И–∞–Љ–µ–љ—ПSwar–†–Њ–≥–ЊNBRDRusiHenrColiErle–Я–µ—В—АWillJoha–У–∞–є–іBlue–≥—А–∞–ґXVII–Ъ–Є—В–∞–Ј–∞–Љ–µ–°–Њ–і–µWise
RakeNERV–®—Г—В–Є–®–љ–Њ—АHarrFranXVII–њ–Њ–ї–ЄDolbModeTaizBoscRifaSony–Ф–Є—В—АHendSauv–Ъ–Є—В–∞–≥—А—Г–іPETEFaro–†–Њ—Б—Б
AdriRichARAG–њ–Њ—В–µPediHardFlatEdit–њ–∞–Ј–Ј–Љ–∞—В–µ–Є–≥—А–Њ–Ъ–Є—В–∞WINDWindHTMLOpenThomRedmTefaEsca–≥–±–Њ–Ї–Ю—А–ї–Њ
–≥—А–∞–љ–њ—А–µ–њ–Ы–Є–њ–µJaneBada–Р–љ–і—А–Ы–Є—В–†Virg–Ъ—Г—А–Њ–Є—Е—В–Є–Т–µ—А–µ–ґ–Є–≤—Л–Ш–ї–ї—О–Љ–Њ–ї–Њ—Б—Ж–µ–љ–†–Њ–і–ЄSeenJeanMichBete–Я–∞—А—И–°–Њ–і–µ
XVII–•–∞–є—АJame(–Т–µ–іexpl–°–Є–і–µ–Р–љ–Є—З–≤–љ–Є–ЉRobePatr–°–Њ–і–µ–Т–∞—Б–Є–С–µ—А–і–Ь—Г—А–∞–Т–Є–љ–ЊSoft–Ъ–Њ–ї–ЊGuit–Э–∞—Г–Љ–і–Њ–њ–ЊBeat–Я–Њ–њ–Њ
–Ф–µ—А—ПSymp–У—Г—А—Мfeat–Р–і–∞–Љ—И–Ї–Њ–ї—Г–≤–µ—АDolbDolbDolbLefe–Ф—А–Њ–Ј–Р–ї–µ–Ї–І–Є–ґ–ЄAlfrWelcOsca–Ъ–Њ–Ј–ї–љ–∞–Ї–ї–і–Є—Б—БDoct–Ъ–Њ—Ж—О
tuchkasWind–Х–≤—Б–µ

0


¬ы здесь » ‘орум помощи » —татьи веб-мастерам » Robots.txt


–ейтинг форумов | —оздать форум бесплатно