Наблюдал по логам, почему эффективность HTTP кэша получается не очень. Оказалось весьма просто и неожиданно мелкогадко: кто у нас жрёт страницы немерянно, -- правильно, боты поисковиков. Получается такая фигня: боты Google, Yahoo, Ask, WebAlta поддерживают получение сжатого контента, боты Яндекса, Рамблера и MSN -- не поддерживают, и вот ночью набегает стая ботов первой группы, забивает кэш сжатыми копиями страниц, прибегает свора ботов второй группы, тянет тоже самое, кэш естественно не работает, бо не умеет расжимать на лету, перетягивает тот же контент, но уже в несжатом виде...
Почему это мелкогадко -- прикрутить к краулеру поддержку сжатия контента при передаче это задача для студиозусов (решается просто и быстро, благо библиотек навало, да и инфы много, ка кэто должно работать). Получается, что у Яндекса, Рамблера и MSN либо соответствующие менеджеры мышей не ловят, либо их инфраструктура уже почти на пределе и не позволяет тянуть небольной overhead разжатия вытянутого контента...
По любому выходит, что WebAlta уже уделала и Яндекс и Рамблер, по крайней мере в технической реализации поддержки протокола HTTP. 🙂
Уведомление: Новости бота Яндекса « СоНоты