2

Яндекс заявляет о поддержке директивы Crawl-Delay своими роботами. Однако, хотя robots.txt сайта inet-sochi.ru явно указывает, что не желает видеть бота Яндекса чаще раза в секунду (указав Crawl-Delay: 1), бот же Яндекса совершенно этой просьбе не следует (вернее программеры не допрограммировали или менеджеры не донесли до программеров, что он них требуется - не суть важно).
...читать далее "Опять Яндекс и robots.txt"

3

Своеобразный рейтинг скорости отдачи контента некоторыми порталами сочинского интернета:

  Скорость отдачи
Кб/с.
Crawl-Delay в
robots.txt, сек.
privetsochi.ru 19.64 -
sochi-24.ru 16.5 -
zolotosochi.com 12.24 -
sochi.com 9.67 -
maksmedia.ru 5.52 -
sochireporter.ru 4.78 10
maks-portal.ru 3.69 -
blogsochi.ru 3.46 10

Тестирование проводилось 10-11 апреля, с каждого сайта индексировалось по 300 случайным образом отобранных документа в 3 потока. Помимо реализации сайта как такового, на скорость отдачи контента также влияет интервал Crawl-delay, задаваемый в файле robots.txt, поскольку робот поисковой машины ожидает заданный промежуток времени между последовательными обращениями к сайту.

2

Добавили поддержку директивы Crawl-Delay в robots.txt и сжатия содержимого при передаче.

Надо же, и трех лет не прошло, и добавили такие полезные мелочи. Видать что-то внутрях Яндекса сдохло... 🙂

Только непонятно, опять немножко приврали в деталях: директивы Crawl-Delay нет в стандарте robots.txt, это расширение, предложеное компанией Yahoo! году эдак в 1999. И опять не понятно, а зачем было вводить вещественные значения для задержки, зачем усложнять сущности ?

1

Этим летом Вебальта подожгла дискуссию, поддержанную совсем недавно Петерхостом, а не оборзели ли боты поисковиков, ну прямо сайты кладут. Да, в действительности вебальтовцы как-то уж поначалу самонадеянно "круто" индексировали сайты, да и весьма полезную и давно известную фичу-расширение Crawl-delay для robots.txt не стали поддерживать (я это как промахом в проектировании нового поисковика назвать не могу).

...читать далее "Выдача по возможностям"

На данный момент поисковой машиной «Вершки РуНета» собрана информация из файлов robots.txt для 17060 хостов. Всего записей о командах оказалось 49976, или всреднем 2,93 команды у одного хоста. Команду Disallow используют 4454 сайта (26,1%), команду Host -- 1580 (9,26%) и команду Crawl-delay -- всего 37 (0,22%).

Да, надо отметить, что команды Host и Crawl-delay являются расширениями, поддерживаемыми только Яндексом первая, и Yahoo, MSN Search вторая. Возможно, что у какого-то количества сайтов эти команды указаны в отдельных секциях файла robots.txt, предназначенных именно для ботов этих поисковиков.

P.S.: К сведению, User-Agent бота «Вершков РуНета»: DataparkSearch. Бот понимает как стандартные команды в robots.txt, так и расширенные: Host и Crawl-delay.

Выпущена новая версия DataparkSearch Engine 4.34. Основные новшества этой версии: добавлена команда ExpireAt для указания точного времени устаревания проиндексированых документов; добавлена поддержка команды Crawl-delay в файле robots.txt; добавлена команда HTDBText для виртуальной схемы htdb: индексирования SQL-баз. Полный список изменений см. здесь: www.dataparksearch.org/ChangeLog.