Перейти к содержимому

9

Это мне только кажется, что Яндексу не удалось дать четкого и однозначного определения своей новой директивы для robots.txt Clean-param ?
...читать далее "Clean-param"

14

Выпас ботов (bot herding) и силосование (siloing) -- относительно новые термины SEO.
...читать далее "Выпас ботов"

4

Компания Microsoft начала тестирование новой версии бота своей поисковой машины Live Search. В логах новый бот представляется как

msnbot/2.0b (+http://search.msn.com/msnbot.htm)

На период тестирования новыйбот будет работать одновременно со старым ботом, а по окончании тестирования - заменит его. Исправлять строку User-Agent в robots.txt не требуется. Если у вас возникнут проблемы с поведеним нового бота на вашем сайте, обсудить их можно в отдельной ветке форума Центра вебмастеров Live Search.

//Live Search Webmaster Center Blog

2

Прайенк Гадж (Priyank Garg), директор по управлению проектами в Yahoo! Search Technology (YST), ответил на вопросы Эрика Инджи (Eric Enge) относительно важности ссылок в алгоритмах Yahoo Search и отношении компаниии Yahoo! к продажным ссылкам.
...читать далее "Важность ссылок в Yahoo Search"

4

Добавили поддержку директивы Crawl-Delay в robots.txt и сжатия содержимого при передаче.

Надо же, и трех лет не прошло, и добавили такие полезные мелочи. Видать что-то внутрях Яндекса сдохло... 🙂

Только непонятно, опять немножко приврали в деталях: директивы Crawl-Delay нет в стандарте robots.txt, это расширение, предложеное компанией Yahoo! году эдак в 1999. И опять не понятно, а зачем было вводить вещественные значения для задержки, зачем усложнять сущности ?

Продолжаю рассматривать Мои сайты в консоле вебмастера у Яндекса, если точнее, то ошибки на моем сайте, о которых сообщает Яндекс.

В частности, он не понимает формата кучи картинок в JPEG !!!

ya-bug-jpg.jpg

И вроде сервер отдает все заголовки корректно:


$ lynx -mime_header -head http://sochi.org.ru/Aibga/mar2001/DSC00003hs.JPG
HTTP/1.1 200 OK
Date: Sat, 29 Dec 2007 15:08:50 GMT
Server: Apache
Last-Modified: Fri, 16 Mar 2001 10:14:58 GMT
Accept-Ranges: bytes
Content-Length: 2688
Connection: close
Content-Type: image/jpeg

И, судя по всему, основной поиск Яндекса перенял моду поиска по блогам не удалять документы, подпадающие под robots.txt из своей базы, а хранить их "вечно" (как всегда будет дежурная отговорка - "на случай если вы передумаете" :).

ya-robots.jpg

Обнаружил еще одного бота, MJ12bot/v1.0.8, внаглую тянущего запрещенные в robots.txt страницы.

Однако на странице информации о боте Majestic-12 сообщается о появлении фейковых ботов, представляющихся именно так. "Мой" бот работал с адреса 99.253.123.252, отсутсвующего в списке адресов активности фейковых ботов.

Трудность блокировки этого бота заключается в том, что это распределеный и добровольческий проект, т.е. боты могут работать с любого диапазона адресов и так просто по адресу его не заблокируешь. Поэтому лучше редиректить по User-Agent следующим образом (для веб-сервера Apache):


RewriteCond %{HTTP_USER_AGENT} MJ12bot.*
RewriteRule (.*) http://127.0.0.1$1 [L,R=301]

Обнаружил в логе поисковика 42 запроса с разными ключевиками с одного IP в течении 5 минут, -- ну не может нормальный человек так с поисковиком работать, наверняка очередной бот шалит и не соблюдает robots.txt.
...читать далее "Шпиёны засыпались на боте"

4

Прямо детский сад какой-то, за 9 месяцев так багу с обработкой robots.txt и не исправили у бота с кличкой "Mail.Ru/1.0", -- опять шалит и тянет запрещенные файлы, только боты теперь ломятся с другого диапазона IP...

К тому же у бота замечены проблемы с резолвингом относительных ссылок, начинающихся сразу с CGI-параметров, он лажается и запрашивает несуществующие URLы...

Ужос просто, сначала ВебАльта клала на robots.txt, теперь вот Mail.Ru/Gogo, куда мир катится... А у девелоперов пади зарплаты ядерные...

12

В официальном блоге компании Google появилась заметка, в которой сообщается о расширении протокола исключений для ротобов (Robots Exclusion Protocol). В доболнение к файлу robots.txt и мета тэгу gooblebot (аналогичному тэгу robots, но с небольшим расширением) добавлен HTTP заголовок X-Robots-Tag, который может передаваться для каждой страницы по отдельности.

Примеры использования этого заголовка:

  • Не показывать закэшированую копию и не показывать снипет на страницах результатов поиска:
    X-Robots-Tag: noarchive, nosnippet
    
  • Не включать документ в результаты выдачи:
    X-Robots-Tag: noindex
    
  • Сообщить, что документ не будет доступен после указаной даты (используется формат RFC 850):
    X-Robots-Tag: unavailable_after: 7 Jul 2007 16:30:00 GMT
    

Можно комбинировать несколько тэгов X-Robots-Tag для одного документа. Например, запретить показ кэшированой копии и удалить из индекса после 23rd July 2007, 3pm PST:

X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 23 Jul 2007 15:00:00 PST

//The Google official blog