Похоже Яндекс не соблюдает robots.txt, и это в XXI-то веке...
Для сайта top.sochi.org.ru прописан такой robots.txt:
User-Agent: *
Disallow: /counter
Тем не менее, в статус-экране Апача можно заметить такие обращения:
3-9 47155 0/4169/118987 _ 12.34 2 1 0.0 1.37 310.13 87.250.245.251 top.sochi.org.ru GET /counter?id=30&type=4&ctest=1 HTTP/1.1
4-9 47959 0/723/105531 _ 2.34 1 1 0.0 0.31 308.24 87.250.245.251 top.sochi.org.ru GET /counter?id=30&type=4&ctest=1 HTTP/1.1
5-9 47685 0/2065/116887 _ 7.85 1 1 0.0 0.81 332.72 87.250.245.252 top.sochi.org.ru GET /counter?id=30&type=4&ctest=1 HTTP/1.1
...
8-9 47453 0/2523/112305 W 8.09 2 0 0.0 1.17 317.85 87.250.245.252 top.sochi.org.ru GET /counter?id=30&type=4&ctest=1 HTTP/1.1
9-9 47708 0/1873/101700 _ 5.27 1 2 0.0 0.80 292.50 87.250.245.253 top.sochi.org.ru GET /counter?id=30&type=4&ctest=1 HTTP/1.1
10-9 47709 0/1865/116677 _ 6.16 1 1 0.0 1.17 303.08 87.250.245.253 top.sochi.org.ru GET /counter?id=30&type=4&ctest=1 HTTP/1.1
11-9 46997 0/4691/114517 _ 17.05 0 1 0.0 1.92 314.52 87.250.245.253 top.sochi.org.ru GET /counter?id=30&type=4&ctest=1 HTTP/1.1
12-9 - 0/0/114775 . 15.54 2 1 0.0 0.00 308.12 87.250.245.253 top.sochi.org.ru GET /counter?id=30&type=4&ctest=1 HTTP/1.1
идущие с адресов 87.250.245.*, резолвящихся как imagick*.photo.yandex.net и принадлежащие подсети
inetnum: 87.250.245.0 - 87.250.245.255
netname: YANDEX-245-0
descr: Yandex enterprise network
country: RU
admin-c: YNDX1-RIPE
tech-c: YNDX1-RIPE
remarks: INFRA-AW
status: ASSIGNED PA
mnt-by: YANDEX-MNT
source: RIPE # Filtered
Скорее всего один из сервисов Яндекса, обрабатывающий изображения (фото, картинки) и работающий из этой подсети, не соблюдает robots.txt.
Это скорее всего не браузером смотрят, - браузеры прерывают циклический редирект после определенного числа попыток, а с этих адресов долбятся очень долго (возможно бесконечно).
Уведомление: Tweets that mention imagick*.photo.yandex.net -- Topsy.com
Там похоже есть куча никому не известных, включая самих яндексойдов, ботов, которые ложили с прибором на всякие ограничения. Что они делают уже давно забыли, но боты активно качают сайты. И сильно повезёт, если они в заголовке юзер-агента что-то путное написали, по чему их можно отфильтровать...
Интересно, что у Яндекса был подобный глюк в форме удаления URL из индекса. Тогда его "полечили" удалением из формы возможности оперировать директориями. Но видимо код-то кривым остался и теперь просто юзается всеми, пишущими свои "боты" для "производственных" нужд.
Это ресайзер картинок для wap/мобильников. В смысле это живой пользователь смотрящий на сайт через наш сервер. Поскольку мы там ничего не индексируем мы соотвественно на robots.txt не смотрим.
Было бы здорово, если бы вы, Яндекс, это (и другие аналогичные "боты") описали где-нибудь в FAQ, во избежание недоразумений.
Плюс, возможно, этот ваш ресайзер не передает куки от клиента-мобильника когда запрашивает картинку для него - иногда это может приводить к получению не той картинки, которую ожидает пользователь.