Яндекс заявляет о поддержке директивы Crawl-Delay своими роботами. Однако, хотя robots.txt сайта inet-sochi.ru явно указывает, что не желает видеть бота Яндекса чаще раза в секунду (указав Crawl-Delay: 1), бот же Яндекса совершенно этой просьбе не следует (вернее программеры не допрограммировали или менеджеры не донесли до программеров, что он них требуется - не суть важно).
...читать далее "Опять Яндекс и robots.txt"
Метка: Crawl-delay
Скорость отдачи
Своеобразный рейтинг скорости отдачи контента некоторыми порталами сочинского интернета:
Скорость отдачи Кб/с. |
Crawl-Delay в robots.txt, сек. |
|
---|---|---|
privetsochi.ru | 19.64 | - |
sochi-24.ru | 16.5 | - |
zolotosochi.com | 12.24 | - |
sochi.com | 9.67 | - |
maksmedia.ru | 5.52 | - |
sochireporter.ru | 4.78 | 10 |
maks-portal.ru | 3.69 | - |
blogsochi.ru | 3.46 | 10 |
Тестирование проводилось 10-11 апреля, с каждого сайта индексировалось по 300 случайным образом отобранных документа в 3 потока. Помимо реализации сайта как такового, на скорость отдачи контента также влияет интервал Crawl-delay, задаваемый в файле robots.txt, поскольку робот поисковой машины ожидает заданный промежуток времени между последовательными обращениями к сайту.
Новости бота Яндекса
Добавили поддержку директивы Crawl-Delay в robots.txt и сжатия содержимого при передаче.
Надо же, и трех лет не прошло, и добавили такие полезные мелочи. Видать что-то внутрях Яндекса сдохло... 🙂
Только непонятно, опять немножко приврали в деталях: директивы Crawl-Delay нет в стандарте robots.txt, это расширение, предложеное компанией Yahoo! году эдак в 1999. И опять не понятно, а зачем было вводить вещественные значения для задержки, зачем усложнять сущности ?
Выдача по возможностям
Этим летом Вебальта подожгла дискуссию, поддержанную совсем недавно Петерхостом, а не оборзели ли боты поисковиков, ну прямо сайты кладут. Да, в действительности вебальтовцы как-то уж поначалу самонадеянно "круто" индексировали сайты, да и весьма полезную и давно известную фичу-расширение Crawl-delay для robots.txt не стали поддерживать (я это как промахом в проектировании нового поисковика назвать не могу).
Об использовании robots.txt
На данный момент поисковой машиной «Вершки РуНета» собрана информация из файлов robots.txt для 17060 хостов. Всего записей о командах оказалось 49976, или всреднем 2,93 команды у одного хоста. Команду Disallow используют 4454 сайта (26,1%), команду Host -- 1580 (9,26%) и команду Crawl-delay -- всего 37 (0,22%).
Да, надо отметить, что команды Host и Crawl-delay являются расширениями, поддерживаемыми только Яндексом первая, и Yahoo, MSN Search вторая. Возможно, что у какого-то количества сайтов эти команды указаны в отдельных секциях файла robots.txt, предназначенных именно для ботов этих поисковиков.
P.S.: К сведению, User-Agent бота «Вершков РуНета»: DataparkSearch. Бот понимает как стандартные команды в robots.txt, так и расширенные: Host и Crawl-delay.
DataparkSearch 4.34
Выпущена новая версия DataparkSearch Engine 4.34. Основные новшества этой версии: добавлена команда ExpireAt для указания точного времени устаревания проиндексированых документов; добавлена поддержка команды Crawl-delay в файле robots.txt; добавлена команда HTDBText для виртуальной схемы htdb: индексирования SQL-баз. Полный список изменений см. здесь: www.dataparksearch.org/ChangeLog.