Bog BOS: sitelife: Интернет роботы

Политика доступа роботов к сайту определяется файлом robots.txt в корневой директории сайта (локальный URI - "/robots.txt"). Файл состоит из секций, разделяемых пустыми строками (т.е. пустые строки имеют значение!). Секции состоят из строк:
<имя-поля>:[<пробел>]<значение>[<пробел>]
Имя поля нечувствительно к регистру символов. Символ "#" обозначает начало комментария, продолжающегося до конца строки. Секция начинается с одной или нескольких строк, содержащих поле User-agent ( некоторые роботы считают, что строка м.б. только одна, но в ней можно использовать несколько имен через пробел). За ней (ними) следуют одна или несколько строк, содержащие поле Disallow. Другие поля игнорируются. В конце последней секции лучше поставить пустую строку.

Поле User-agent определяет имя робота, к которому должны применяться описанные в данной секции поля Disallow. Имя робота задается в HTTP запросе в поле User-Agent. Регистр символов не имеет значения. Некоторые роботы умеют искать наиболее подходящую секцию по частичному имени. Использование символа "*" в качестве значения поля определяет правила доступа для роботов, не перечисленных в файле явно. Такая секция м.б. только одна. Регулярные выражения или шаблоны использовать нельзя.

Поле Disallow определяет начало строки URI. Доступ робота к URI, начинающимся с этой строки, закрыт. Кодированные (%xx) октеты декодируются перед сравнением. Регулярные выражения или шаблоны использовать нельзя. Пустое поле означает, что робот может извлекать любой документ. Некоторые роботы считают, что в одной строке можно указывать несколько начал URI через пробел.

Пустой файл означает, что разрешено все. Не все роботы читают этот файл. Файл может быть кеширован роботом. По умолчанию, время хранения в кеше - 7 дней, но может быть изменено стандартными механизмами HTTP. Указывая в robots.txt куда не надо ходить, Вы подсказываете хакерам "скрытые" места Вашего сайта! В будущем предполагается появление поля "Allow".

Некоторые роботы не заглядывают в этот файл (например, закладки яндекса или Ask Jeeves), заглядывают редко или заглядывают, но не понимают того, что там написано.

Приемы использования

Как отвадить поисковых роботов от копий сайта в других кодировках.

Имеется сайт в 6 кодировках русского языка (www.deol.ru, cp1251.deol.ru, koi8.deol.ru, alt.deol.ru, mac.deol.ru, lat.deol.ru) и хочется, чтобы поисковые роботы индексировали сайт только один раз. Файл robots.txt для основного сервера:

User-Agent: * Disallow:

Настраиваем дополнительные виртуальные сервера в httpd.conf следующим образом:

ServerName lat.deol.ru Alias /robots.txt /usr/local/apache/htdocs/robots.lat.txt

файл robots.lat.txt имеет вид:

User-Agent: * Disallow: /

META тэг ROBOTS

Если у Вас нет возможности записать файл robots.txt в коревую директорию сайта, то поисковыми роботами можно управлять с помощью тэга META. К сожалению, он не позволяет различать роботов по их User-Agent.

где указание роботу (по умолчанию - ALL) - список через запятую ключевых слов:

INDEX - данный документ можно индексировать
FOLLOW - робот может идти по ссылкам из данного документа
NOINDEX
NOFOLLOW
ALL - INDEX и FOLLOW
NONE - NOINDEX и NOFOLLOW

Какие поисковые роботы используют этот тэг я не знаю.

Предлагаемые META тэги

<META NAME="DOCUMENT-STATE" CONTENT="DYNAMIC">
<META NAME="DOCUMENT-STATE" CONTENT="STATIC">
<META NAME="URL" CONTENT="absolute url"> (вместо текущего документа индексировать указанный URI)

Ссылки