Блог ИТ склеротика. Bog BOS: sitelife: Интернет роботы

Страницы

Расширенный поиск в статьях блога

1 октября 2012 г.

Bog BOS: sitelife: Интернет роботы

Политика доступа роботов к сайту определяется файлом robots.txt в корневой директории сайта (локальный URI - "/robots.txt"). Файл состоит из секций, разделяемых пустыми строками (т.е. пустые строки имеют значение!). Секции состоят из строк:
<имя-поля>:[<пробел>]<значение>[<пробел>]
Имя поля нечувствительно к регистру символов. Символ "#" обозначает начало комментария, продолжающегося до конца строки. Секция начинается с одной или нескольких строк, содержащих поле User-agent (
некоторые роботы считают, что строка м.б. только одна, но в ней можно использовать несколько имен через пробел). За ней (ними) следуют одна или несколько строк, содержащие поле Disallow. Другие поля игнорируются. В конце последней секции лучше поставить пустую строку.

Поле User-agent определяет имя робота, к которому должны применяться описанные в данной секции поля Disallow. Имя робота задается в HTTP запросе в поле User-Agent. Регистр символов не имеет значения. Некоторые роботы умеют искать наиболее подходящую секцию по частичному имени. Использование символа "*" в качестве значения поля определяет правила доступа для роботов, не перечисленных в файле явно. Такая секция м.б. только одна. Регулярные выражения или шаблоны использовать нельзя.
Поле Disallow определяет начало строки URI. Доступ робота к URI, начинающимся с этой строки, закрыт. Кодированные (%xx) октеты декодируются перед сравнением. Регулярные выражения или шаблоны использовать нельзя. Пустое поле означает, что робот может извлекать любой документ. Некоторые роботы считают, что в одной строке можно указывать несколько начал URI через пробел.
Пустой файл означает, что разрешено все. Не все роботы читают этот файл. Файл может быть кеширован роботом. По умолчанию, время хранения в кеше - 7 дней, но может быть изменено стандартными механизмами HTTP. Указывая в robots.txt куда не надо ходить, Вы подсказываете хакерам "скрытые" места Вашего сайта! В будущем предполагается появление поля "Allow".
Некоторые роботы не заглядывают в этот файл (например, закладки яндекса или Ask Jeeves), заглядывают редко или заглядывают, но не понимают того, что там написано.
 Приемы использования
Как отвадить поисковых роботов от копий сайта в других кодировках.
Имеется сайт в 6 кодировках русского языка (www.deol.ru, cp1251.deol.ru, koi8.deol.ru, alt.deol.ru, mac.deol.ru, lat.deol.ru) и хочется, чтобы поисковые роботы индексировали сайт только один раз. Файл robots.txt для основного сервера:
User-Agent: * Disallow:
Настраиваем дополнительные виртуальные сервера в httpd.conf следующим образом:
ServerName lat.deol.ru Alias /robots.txt /usr/local/apache/htdocs/robots.lat.txt
файл robots.lat.txt имеет вид:
User-Agent: * Disallow: /
 META тэг ROBOTS
Если у Вас нет возможности записать файл robots.txt в коревую директорию сайта, то поисковыми роботами можно управлять с помощью тэга META. К сожалению, он не позволяет различать роботов по их User-Agent.
<META NAME="ROBOTS" CONTENT="указание роботу">
где указание роботу (по умолчанию - ALL) - список через запятую ключевых слов:
  • INDEX - данный документ можно индексировать
  • FOLLOW - робот может идти по ссылкам из данного документа
  • NOINDEX
  • NOFOLLOW
  • ALL - INDEX и FOLLOW
  • NONE - NOINDEX и NOFOLLOW
Какие поисковые роботы используют этот тэг я не знаю.
Предлагаемые META тэги
  • <META NAME="DOCUMENT-STATE" CONTENT="DYNAMIC">
  • <META NAME="DOCUMENT-STATE" CONTENT="STATIC">
  • <META NAME="URL" CONTENT="absolute url"> (вместо текущего документа индексировать указанный URI)
Ссылки
Скопировано с www.bog.pp.ru: 2012.11.05

.

Счетчик тИЦ и PR Яндекс.Метрика Msn bot last visit powered by MyPagerank.NetYahoo bot last visit powered by MyPagerank.Net ping fast  my blog, website, or RSS feed for Free