
Зная значения User-agent для поисковых ботов, можно запретить, либо наоборот, открыть доступ тому или иному боту, например следующими строками:
User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Disallow:
Верхние строки запретят всем ботам индексировать контент, кроме бота AdSense (если на сайте показываются объявления AdSense).
Ниже приведен список наиболее часто встречаемых ботов, принадлежащих известным поисковым системам.
| Поисковик | URL | User-agent |
|---|---|---|
| http://www.google.com | Googlebot | |
| Yahoo! | http://www.yahoo.com | Slurp Yahoo! Slurp |
| AOL | http://www.aol.com | Slurp |
| MSN | http://www.msn.com | MSNBot |
| Live | http://www.live.com | MSNBot |
| Ask | http://www.ask.com | Teoma |
| AltaVista | http://www.altavista.com | Scooter |
| Alexa | http://www.alexa.com | ia_archiver |
| Lycos | http://www.lycos.com | Lycos |
| Яндекс | http://www.ya.ru | Yandex |
| Рамблер | http://www.rambler.ru | StackRambler |
| Мэйл.ру | http://mail.ru | Mail.Ru |
| Aport | http://www.aport.ru | Aport |
| Вебальта | http://www.webalta.ru | WebAlta WebAlta Crawler/2.0 |
Примечание:
У некоторых крупных поисковых систем помимо основных поисковых ботов существуют также роботы для индексации блогов, новостей, изображений и т.д. Вот некоторые из них:
Googlebot-Mobile выполняет обход страниц для включения их в индекс для мобильных устройств.
Googlebot-Image сканирует страницы для включения в индекс картинок.
Mediapartners-Google сканирует страницы для определения содержания AdSense объявлений.
Adsbot-Google сканирует страницы для определения качества целевых страниц AdWords.
MSNBot-NewsBlogs – сканирует для поиска новостей в сети Интернет.
MSNBot-Products – сканирует для поиска продуктов, которые можно приобрести в Интернете.
MSNBot-Media – сканирует страницы для поиска мультимедийных файлов.
Ссылки по теме поисковых ботов:
List of Robot Agent Strings
Robots Database