Crawl-delay — СоНоты

Опять Яндекс и robots.txt 2

Максим Захаров25 августа 201126 августа 20112 комментария

Яндекс заявляет о поддержке директивы Crawl-Delay своими роботами. Однако, хотя robots.txt сайта inet-sochi.ru явно указывает, что не желает видеть бота Яндекса чаще раза в секунду (указав Crawl-Delay: 1), бот же Яндекса совершенно этой просьбе не следует (вернее программеры не допрограммировали или менеджеры не донесли до программеров, что он них требуется - не суть важно).
...читать далее "Опять Яндекс и robots.txt"

Скорость отдачи 3

Максим Захаров11 апреля 20113 комментария

Своеобразный рейтинг скорости отдачи контента некоторыми порталами сочинского интернета:

	Скорость отдачи Кб/с.	Crawl-Delay в robots.txt, сек.
privetsochi.ru	19.64	-
sochi-24.ru	16.5	-
zolotosochi.com	12.24	-
sochi.com	9.67	-
maksmedia.ru	5.52	-
sochireporter.ru	4.78	10
maks-portal.ru	3.69	-
blogsochi.ru	3.46	10

Тестирование проводилось 10-11 апреля, с каждого сайта индексировалось по 300 случайным образом отобранных документа в 3 потока. Помимо реализации сайта как такового, на скорость отдачи контента также влияет интервал Crawl-delay, задаваемый в файле robots.txt, поскольку робот поисковой машины ожидает заданный промежуток времени между последовательными обращениями к сайту.

Новости бота Яндекса 4

Максим Захаров25 июля 20084 комментария

Добавили поддержку директивы Crawl-Delay в robots.txt и сжатия содержимого при передаче.

Надо же, и трех лет не прошло, и добавили такие полезные мелочи. Видать что-то внутрях Яндекса сдохло... 🙂

Только непонятно, опять немножко приврали в деталях: директивы Crawl-Delay нет в стандарте robots.txt, это расширение, предложеное компанией Yahoo! году эдак в 1999. И опять не понятно, а зачем было вводить вещественные значения для задержки, зачем усложнять сущности ?

Выдача по возможностям 4

Максим Захаров8 сентября 20064 комментария

Этим летом Вебальта подожгла дискуссию, поддержанную совсем недавно Петерхостом, а не оборзели ли боты поисковиков, ну прямо сайты кладут. Да, в действительности вебальтовцы как-то уж поначалу самонадеянно "круто" индексировали сайты, да и весьма полезную и давно известную фичу-расширение Crawl-delay для robots.txt не стали поддерживать (я это как промахом в проектировании нового поисковика назвать не могу).

...читать далее "Выдача по возможностям"

Об использовании robots.txt 1

Максим Захаров25 июня 20061 комментарий

На данный момент поисковой машиной «Вершки РуНета» собрана информация из файлов robots.txt для 17060 хостов. Всего записей о командах оказалось 49976, или всреднем 2,93 команды у одного хоста. Команду Disallow используют 4454 сайта (26,1%), команду Host -- 1580 (9,26%) и команду Crawl-delay -- всего 37 (0,22%).

Да, надо отметить, что команды Host и Crawl-delay являются расширениями, поддерживаемыми только Яндексом первая, и Yahoo, MSN Search вторая. Возможно, что у какого-то количества сайтов эти команды указаны в отдельных секциях файла robots.txt, предназначенных именно для ботов этих поисковиков.

P.S.: К сведению, User-Agent бота «Вершков РуНета»: DataparkSearch. Бот понимает как стандартные команды в robots.txt, так и расширенные: Host и Crawl-delay.

DataparkSearch 4.34 1

Максим Захаров1 ноября 20051 комментарий

Выпущена новая версия DataparkSearch Engine 4.34. Основные новшества этой версии: добавлена команда ExpireAt для указания точного времени устаревания проиндексированых документов; добавлена поддержка команды Crawl-delay в файле robots.txt; добавлена команда HTDBText для виртуальной схемы htdb: индексирования SQL-баз. Полный список изменений см. здесь: www.dataparksearch.org/ChangeLog.