Перейти к содержимому

imagick*.photo.yandex.net

Похоже Яндекс не соблюдает robots.txt, и это в XXI-то веке...

Для сайта top.sochi.org.ru прописан такой robots.txt:


User-Agent: *
Disallow: /counter

Тем не менее, в статус-экране Апача можно заметить такие обращения:


3-9	47155	0/4169/118987	_ 	12.34	2	1	0.0	1.37	310.13 	87.250.245.251	top.sochi.org.ru	GET /counter?id=30&type=4&ctest=1 HTTP/1.1
4-9	47959	0/723/105531	_ 	2.34	1	1	0.0	0.31	308.24 	87.250.245.251	top.sochi.org.ru	GET /counter?id=30&type=4&ctest=1 HTTP/1.1
5-9	47685	0/2065/116887	_ 	7.85	1	1	0.0	0.81	332.72 	87.250.245.252	top.sochi.org.ru	GET /counter?id=30&type=4&ctest=1 HTTP/1.1
...
8-9	47453	0/2523/112305	W 	8.09	2	0	0.0	1.17	317.85 	87.250.245.252	top.sochi.org.ru	GET /counter?id=30&type=4&ctest=1 HTTP/1.1
9-9	47708	0/1873/101700	_ 	5.27	1	2	0.0	0.80	292.50 	87.250.245.253	top.sochi.org.ru	GET /counter?id=30&type=4&ctest=1 HTTP/1.1
10-9	47709	0/1865/116677	_ 	6.16	1	1	0.0	1.17	303.08 	87.250.245.253	top.sochi.org.ru	GET /counter?id=30&type=4&ctest=1 HTTP/1.1
11-9	46997	0/4691/114517	_ 	17.05	0	1	0.0	1.92	314.52 	87.250.245.253	top.sochi.org.ru	GET /counter?id=30&type=4&ctest=1 HTTP/1.1
12-9	-	0/0/114775	. 	15.54	2	1	0.0	0.00	308.12 	87.250.245.253	top.sochi.org.ru	GET /counter?id=30&type=4&ctest=1 HTTP/1.1

идущие с адресов 87.250.245.*, резолвящихся как imagick*.photo.yandex.net и принадлежащие подсети


inetnum:        87.250.245.0 - 87.250.245.255
netname:        YANDEX-245-0
descr:          Yandex enterprise network
country:        RU
admin-c:        YNDX1-RIPE
tech-c:         YNDX1-RIPE
remarks:        INFRA-AW
status:         ASSIGNED PA
mnt-by:         YANDEX-MNT
source:         RIPE # Filtered

Скорее всего один из сервисов Яндекса, обрабатывающий изображения (фото, картинки) и работающий из этой подсети, не соблюдает robots.txt.

Это скорее всего не браузером смотрят, - браузеры прерывают циклический редирект после определенного числа попыток, а с этих адресов долбятся очень долго (возможно бесконечно).

imagick*.photo.yandex.net: 18 комментариев

  1. Уведомление: Tweets that mention imagick*.photo.yandex.net -- Topsy.com

  2. Michael Monashev

    Там похоже есть куча никому не известных, включая самих яндексойдов, ботов, которые ложили с прибором на всякие ограничения. Что они делают уже давно забыли, но боты активно качают сайты. И сильно повезёт, если они в заголовке юзер-агента что-то путное написали, по чему их можно отфильтровать...

  3. Maxime

    Интересно, что у Яндекса был подобный глюк в форме удаления URL из индекса. Тогда его "полечили" удалением из формы возможности оперировать директориями. Но видимо код-то кривым остался и теперь просто юзается всеми, пишущими свои "боты" для "производственных" нужд.

  4. Anatolix

    Это ресайзер картинок для wap/мобильников. В смысле это живой пользователь смотрящий на сайт через наш сервер. Поскольку мы там ничего не индексируем мы соотвественно на robots.txt не смотрим.

  5. Maxime

    Было бы здорово, если бы вы, Яндекс, это (и другие аналогичные "боты") описали где-нибудь в FAQ, во избежание недоразумений.

    Плюс, возможно, этот ваш ресайзер не передает куки от клиента-мобильника когда запрашивает картинку для него - иногда это может приводить к получению не той картинки, которую ожидает пользователь.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *