Это мне только кажется, что Яндексу не удалось дать четкого и однозначного определения своей новой директивы для robots.txt Clean-param ?
...читать далее "Clean-param"
Метка: robots.txt
Выпас ботов
Выпас ботов (bot herding) и силосование (siloing) -- относительно новые термины SEO.
...читать далее "Выпас ботов"
msnbot/2.0b
Компания Microsoft начала тестирование новой версии бота своей поисковой машины Live Search. В логах новый бот представляется как
msnbot/2.0b (+http://search.msn.com/msnbot.htm)
На период тестирования новыйбот будет работать одновременно со старым ботом, а по окончании тестирования - заменит его. Исправлять строку User-Agent в robots.txt не требуется. Если у вас возникнут проблемы с поведеним нового бота на вашем сайте, обсудить их можно в отдельной ветке форума Центра вебмастеров Live Search.
Важность ссылок в Yahoo Search
Прайенк Гадж (Priyank Garg), директор по управлению проектами в Yahoo! Search Technology (YST), ответил на вопросы Эрика Инджи (Eric Enge) относительно важности ссылок в алгоритмах Yahoo Search и отношении компаниии Yahoo! к продажным ссылкам.
...читать далее "Важность ссылок в Yahoo Search"
Новости бота Яндекса
Добавили поддержку директивы Crawl-Delay в robots.txt и сжатия содержимого при передаче.
Надо же, и трех лет не прошло, и добавили такие полезные мелочи. Видать что-то внутрях Яндекса сдохло... 🙂
Только непонятно, опять немножко приврали в деталях: директивы Crawl-Delay нет в стандарте robots.txt, это расширение, предложеное компанией Yahoo! году эдак в 1999. И опять не понятно, а зачем было вводить вещественные значения для задержки, зачем усложнять сущности ?
Яндекс глючит по-черному ?!
Продолжаю рассматривать Мои сайты в консоле вебмастера у Яндекса, если точнее, то ошибки на моем сайте, о которых сообщает Яндекс.
В частности, он не понимает формата кучи картинок в JPEG !!!
И вроде сервер отдает все заголовки корректно:
$ lynx -mime_header -head http://sochi.org.ru/Aibga/mar2001/DSC00003hs.JPG HTTP/1.1 200 OK Date: Sat, 29 Dec 2007 15:08:50 GMT Server: Apache Last-Modified: Fri, 16 Mar 2001 10:14:58 GMT Accept-Ranges: bytes Content-Length: 2688 Connection: close Content-Type: image/jpeg
И, судя по всему, основной поиск Яндекса перенял моду поиска по блогам не удалять документы, подпадающие под robots.txt из своей базы, а хранить их "вечно" (как всегда будет дежурная отговорка - "на случай если вы передумаете" :).
Корявый бот
Обнаружил еще одного бота, MJ12bot/v1.0.8, внаглую тянущего запрещенные в robots.txt страницы.
Однако на странице информации о боте Majestic-12 сообщается о появлении фейковых ботов, представляющихся именно так. "Мой" бот работал с адреса 99.253.123.252, отсутсвующего в списке адресов активности фейковых ботов.
Трудность блокировки этого бота заключается в том, что это распределеный и добровольческий проект, т.е. боты могут работать с любого диапазона адресов и так просто по адресу его не заблокируешь. Поэтому лучше редиректить по User-Agent следующим образом (для веб-сервера Apache):
RewriteCond %{HTTP_USER_AGENT} MJ12bot.*
RewriteRule (.*) http://127.0.0.1$1 [L,R=301]
Шпиёны засыпались на боте
Обнаружил в логе поисковика 42 запроса с разными ключевиками с одного IP в течении 5 минут, -- ну не может нормальный человек так с поисковиком работать, наверняка очередной бот шалит и не соблюдает robots.txt.
...читать далее "Шпиёны засыпались на боте"
Атака каличных Гогов
Прямо детский сад какой-то, за 9 месяцев так багу с обработкой robots.txt и не исправили у бота с кличкой "Mail.Ru/1.0", -- опять шалит и тянет запрещенные файлы, только боты теперь ломятся с другого диапазона IP...
К тому же у бота замечены проблемы с резолвингом относительных ссылок, начинающихся сразу с CGI-параметров, он лажается и запрашивает несуществующие URLы...
Ужос просто, сначала ВебАльта клала на robots.txt, теперь вот Mail.Ru/Gogo, куда мир катится... А у девелоперов пади зарплаты ядерные...
Google расширяет Robots Exclusion Protocol
В официальном блоге компании Google появилась заметка, в которой сообщается о расширении протокола исключений для ротобов (Robots Exclusion Protocol). В доболнение к файлу robots.txt и мета тэгу gooblebot (аналогичному тэгу robots, но с небольшим расширением) добавлен HTTP заголовок X-Robots-Tag, который может передаваться для каждой страницы по отдельности.
Примеры использования этого заголовка:
- Не показывать закэшированую копию и не показывать снипет на страницах результатов поиска:
X-Robots-Tag: noarchive, nosnippet
- Не включать документ в результаты выдачи:
X-Robots-Tag: noindex
- Сообщить, что документ не будет доступен после указаной даты (используется формат RFC 850):
X-Robots-Tag: unavailable_after: 7 Jul 2007 16:30:00 GMT
Можно комбинировать несколько тэгов X-Robots-Tag для одного документа. Например, запретить показ кэшированой копии и удалить из индекса после 23rd July 2007, 3pm PST:
X-Robots-Tag: noarchive X-Robots-Tag: unavailable_after: 23 Jul 2007 15:00:00 PST