Главная | О блоге и его авторе | Реклама | Другие проекты автора
post Категории: Поисковые системыpost

В последнее время всё чаще начал замечать на своих проектах редких и неизвестных мне поисковых ботов. Было решено найти как можно больше информации по ним, и узнать к каким ПС они принадлежат.
Вот собственно и результат работы:

Yandex (H)

Робот Яндекса, разбирающийся с зеркалами

User-agent: Yandex/1.01.001 (compatible; Win16; H)
From: webadmin@yandex.ru
Connection: Keep-Alive
If-Modified-Since: нет.
Accept: нет
Протокол: HTTP/1.1

Yandex (I)

Основной индексатор Яндекса

User-agent: Yandex/1.01.001 (compatible; Win16; I)
From: webadmin@yandex.ru
Connection: Keep-Alive
If-Modified-Since: есть в запросе
Accept: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1
Accept-Language: ru, uk, be, en, *;q=0.01
Протокол: HTTP/1.1

Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок
Yandex/1.02.000 (compatible; Win16; F) — робот, индексирующий пиктограммы сайтов (favicons)
Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
Yandex/1.03.000 (compatible; Win16; M) — робот, обращающийся при открытии страницы по ссылке «Найденные слова»
YaDirectBot/1.0 (compatible; Win16; I) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса
YandexBlog/0.99.101 (compatible; DOS3.30; Mozilla/5.0; B; robot) — робот поиска по блогам, индексирующий коментарии постов

Кроме роботов, у Яндекса есть несколько агентов-«простукивалок», которые определяют, доступен ли в данный момент сайт или документ, на который стоит ссылка в соответствующем сервисе.

Yandex/2.01.000 (compatible; Win16; Dyatel; C) — «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.
Yandex/2.01.000 (compatible; Win16; Dyatel; Z) — «простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.
Yandex/2.01.000 (compatible; Win16; Dyatel; D) — «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается.
Yandex/2.01.000 (compatible; Win16; Dyatel; N) — «простукивалка» Яндекс.Новостей. Она формирует статистические отчеты для контент-менеджера и информирует его о возможных проблемах у партнеров-поставщиков новостей.

StackRambler

User-agent: StackRambler/2.0 (MSIE incompatible)
From: search.support@rambler-co.ru
Connection: close
If-Modified-Since - есть в запросах
Нет заголовка Accept
Протокол: HTTP/1.0

Робот индексирует:
1. сайты, находящиеся в следующих доменах первого уровня: .ru, .su, .ua, .by, .kz, .kg, .uz, .ge;
2. русскоязычные тексты из доменов .com, .org, .net и других. Сайты не на русском языке из других доменов игнорируются;
3. “flash-документы“ (извлекаются только гиперссылки);
4. rtf, doc, pdf-документы (информация отсутствует);
5. фрейм-конструкции (хотя их применение не рекомендуется в документации).
(*) директивы description и keywords не принимаются во внимание

Робот игнорирует:
1. Все meta-теги, кроме содержащих директиву robots
2. текст, заключенный между тегами
3. файлы и папки исключенный из индексации при помощи robots.txt. Подробнее о robots.txt…
4. html-документы с запретом индексирования, настроенным при помощи meta-тегов “Robots”. Подробнее о meta-тегах…
5. При обращение робота к серверу, он не отвечает, либо выдает ошибку.
6. Максимальный размер документа для роботов Рамблера составляет 200 килобайт. Документы большего размера усекаются до указанной величины.
(*) Рамблер не дает гарантии, что страница будет проиндексирована.

Yahoo Slurp

User-agent: Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
Accept: */*
Accept-Encoding: gzip, x-gzip (поддерживает сжатие)
Протокол: HTTP/1.0
If-Modified-Since: есть в запросе

Aport

User-agent: Aport
Accept: */*
Connection: нет
If-Modified-Since: не наблюдал ни разу

Googlebot, версия 1

User-agent: Googlebot/2.1 (+http://www.google.com/bot.html)
From: googlebot(at)google.com
Accept: text/html,text/plain
If-Modified-Since: есть
Connection: нет
Протокол: HTTP/1.0

Googlebot, версия 2

User-agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
From: googlebot(at)googlebot.com
Connection: Keep-alive
Accept: */*
Accept-encoding: gzip
Протокол: HTTP/1.1

Google Wireless Transcoder

User-agent:
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; Google Wireless Transcoder;)

Это специальный агент Google, подготавливающий контент для мобильников, причем не сканирующий, а именно преобразующий(Transcoder).

Из особенностей поведения следует отметить несколько запросов графики с пустыми полями Referer и User-agent с того же IP. То есть забирается вся страница с графикой и преобразуется на лету, но при этом JavaScript не исполняется. CSS-ом тоже не интересуется.

BigMir

User-agent: BigmirSpider
Accept: */*
Connection: нет
If-Modified-Since: есть
Протокол: HTTP/1.0

METASpider

User-agent: Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0) METASpider
Accept: text/*
If-Modified-Since: есть в запросе
Connection: Close
Протокол в запросе: HTTP/1.0

И в заключении список наименее распространенных ботов:

Acoon - Acoon bot
AnzwersCrawl - Australian search
Arachnoidea - EuroSeek search
Araneo - Apparently spiders
ArchitextSpider - Excite spider
Atomz - Atomz bot
CMC - Computer Music Center bot
ComputingSite - ComputingSite bot
Cruizer - Southafrican spider
Datenbank - Datenbank.de bot
DeepIndex - DeepIndex spider
Die Blinde Kuh - German Kids spider
DomainsDB.net - MetaCrawler v.0.9.7b
Esther - Build database bot
ExplorerSearch - New Zealand Explorer
Fast-WebCrawler - AllTheWeb spider
Fido - PlanetSearch spider
FreeCrawl - EuroSeek spider
Gaisbot - GAIS spider
Gigabot - Gigablast
Gulliver - Northern Light spider
Gulper Web Bot - Yuntis web robot
Icorus - Webmasterworld.com Bot
InfoSeek - InfoSeek spider
Iron33 - Verno spider
IsraeliSearch - Israeli Society
JCrawler - Vietnamese search
KIT Fireball - Fireball search
KO Yappo - Yappo search
Mercator - Altavista spider
Mewsoft Search Engine - Newsoft spider
Motor - CyberCon Search spider
MuscatFerret - EuroFerret database
MwdSearch - Finnish search
NEC MeshExplorer - NETPLAZA search
Nederland Zoek - Nederland.net search
NetScoop - NetScoop search
Nutch - open-source web search
Onet.pl - SA
Openbot - Openfind search
Openfind data gatherer - Openfind bot
Orb Search - Orb search
RHCS - RoadHouse search
Scooter - Altavista spider
Scrubby - Scrub The Web search
SearchTone - Developer’s site spider
Sidewinder - InfoSeek spider
Slurp - Inktomi/Hot Bot search
SwissSearch - Swiss search
Tarantula - Altavista spider
Trek17 - Altavista search
UdiSearch - Yahoo spider
UltraSeek - InfoSeek spider
VWbot - SearchBC database spider
Vagabondo - Mainly Dutch spider
Valkyrie - Japanese ODIN search
Voyager - Lisa search service
WebCrawler - Fast
WebCrawler - WebCrawler search
WebQuest - Build search
Wired Digital - Wired Digital spider
Zealbot - LookSmart spider
ZyBorg - Wisenut search
aWapClient - WAP content crawler
ah-ha.com - ah-ha bot
aport - Aport.ru bot
appie - Walhello.com search
ask jeeves - Ask Jeeves
bumblebee - Relevare.com bot
crawler3 - Altavista spider
ia_archiver - Archive.org bot
lycos - Lycos.com Bot
msnbot/1.0 - MSN Search bot
scooter - Altavista bot
semanticdiscovery - Semanticdiscovery.com spider
slurp@inktomi - inktomi
szukacz - Polish searches
w3index - Scandinavian web spider
whatuseek - What You Seek

***

bot

Случайные записи:

Комментарии отсутствуют

You should have a name, right? 
Your email address, I promised I won't tell it на anyone. 
If you have a web site or blog, you can type the URL right here. 
This is where you type your comments. 
Запомнить контактную информацию.
 
  • Показатели блога


    Яндекс цитирования

  • Архивы