Об использовании robots.txt

На данный момент поисковой машиной «Вершки РуНета» собрана информация из файлов robots.txt для 17060 хостов. Всего записей о командах оказалось 49976, или всреднем 2,93 команды у одного хоста. Команду Disallow используют 4454 сайта (26,1%), команду Host -- 1580 (9,26%) и команду Crawl-delay -- всего 37 (0,22%).

Да, надо отметить, что команды Host и Crawl-delay являются расширениями, поддерживаемыми только Яндексом первая, и Yahoo, MSN Search вторая. Возможно, что у какого-то количества сайтов эти команды указаны в отдельных секциях файла robots.txt, предназначенных именно для ботов этих поисковиков.

P.S.: К сведению, User-Agent бота «Вершков РуНета»: DataparkSearch. Бот понимает как стандартные команды в robots.txt, так и расширенные: Host и Crawl-delay.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *