Перейти к содержимому

14

Ну вот и на нашего серого ослика www.43n39e.ru напали серые волки-позорные боты Mail.Ru/1.0, ломящиеся с адреса 194.67.45.201 (spider4.mail.ru) и не соблюдающие правила для ботов в robots.txt.

В robots.txt прописана секция

User-agent: *
Disallow: /cgi-bin/search
Disallow: /cgi-bin/storedoc
Disallow: /cgi-bin/newinsearch.ru
Disallow: /statistics
Disallow: /banner
Disallow: /js/

Однако бот без зазрения совести тянет урлы, начинающиеся с /cgi-bin/search.cgi

Интересно, что похожая ошибка была и у Яндекса: СоНот 940.

3

Пришла ещё одна напасть, любящая RSS-фиды и ненавидящая robots.txt, звать Google Desktop (оно само так представляется в User-Agent: Mozilla/4.0 (compatible; Google Desktop) ). Также как и Яндекс, компания Google считает, что правила robots.txt не распространяются на фиды, поэтому берёт их где-только найдёт и когда захочет. А хочет оно местами часто (особой закономерности не уловил, то пусто, то густо), порой один и тот же фид запрашивается раз в пять минут....

А вот я считал, что Google Desktop, по идее, вообще дальше локальной машины ходить не должен... А ещё думал, что Google умеет делать SGML-unescape для урлов, прописаных в HTML-документах, -- Google Desktop не умеет, как нашёл, так вот прямо и запрашивает, без всякого unescape...

2

После победы бельгийских издателей в суде над Google по поводу использования их контента без разрешения, коалиция новостных издательств готовит к запуску глобальный проект ACAP (Automated Content Access Protocol), который позволит в дальнейшем избежать подобных судебных разбирательств. Система ACAP будет автоматически сообщать агрегаторам, ботам и др. пользователям об авторстве и условиях использования контента сайта.

Запуск ACAP намечен на конец этого года.

//WAN-Press.org

7

Обнаружил, что Яндекс проиндексировал директорию, которую не надо было бы, -- да она не была запрещена в robots.txt, но и прямых ссылок на сайте на неё нет. Ну не суть важно, меняю robots.txt, добавляю в него правило:

Disallow: /templates

Захожу на webmaster.yandex.ru, говорю: удали-ка мне все URL из директории sochi.org.ru/templates/, -- а он мне в ответ: не могу, это не запрещено в вашем robots.txt ! Ну ладно, мы не гордые, попросили удалить все URL из директории sochi.org.ru/templates -- согласился удалить !!!

Вот уж не ожидал такой детсадовской ошибки...

Процитирую www.robotstxt.org:

Disallow
The value of this field specifies a partial URL that is not to be visited. This can be a full path, or a partial path; any URL that starts with this value will not be retrieved. For example, Disallow: /help disallows both /help.html and /help/index.html, whereas Disallow: /help/ would disallow /help/index.html but allow /help.html.Any empty value, indicates that all URLs can be retrieved. At least one Disallow field needs to be present in a record.

4

Этим летом Вебальта подожгла дискуссию, поддержанную совсем недавно Петерхостом, а не оборзели ли боты поисковиков, ну прямо сайты кладут. Да, в действительности вебальтовцы как-то уж поначалу самонадеянно "круто" индексировали сайты, да и весьма полезную и давно известную фичу-расширение Crawl-delay для robots.txt не стали поддерживать (я это как промахом в проектировании нового поисковика назвать не могу).

...читать далее "Выдача по возможностям"

8

Такой вот "философический" вопрос: один сайт отдаёт robots.txt всего из одной строки:

User-Agent: *

Как его трактовать ? По стандарту, должно быть одна или более команд Disallow, но их нет... Яндекс этот сайт проиндексировал (уж не знаю до того, как robots.txt стал в таком виде или после).

1

На данный момент поисковой машиной «Вершки РуНета» собрана информация из файлов robots.txt для 17060 хостов. Всего записей о командах оказалось 49976, или всреднем 2,93 команды у одного хоста. Команду Disallow используют 4454 сайта (26,1%), команду Host -- 1580 (9,26%) и команду Crawl-delay -- всего 37 (0,22%).

Да, надо отметить, что команды Host и Crawl-delay являются расширениями, поддерживаемыми только Яндексом первая, и Yahoo, MSN Search вторая. Возможно, что у какого-то количества сайтов эти команды указаны в отдельных секциях файла robots.txt, предназначенных именно для ботов этих поисковиков.

P.S.: К сведению, User-Agent бота «Вершков РуНета»: DataparkSearch. Бот понимает как стандартные команды в robots.txt, так и расширенные: Host и Crawl-delay.

3

Понадобилось мне дать ссылку на описание директивы Host в robots.txt (расширение от Яндекса), но вот беда, ссылка http://www.yandex.ru/info/webmaster2.html#HostDirective даваемая также в хелпе Яндекса никуда не ведёт, просто редиректит на ФАК Яндекса...

2

Выпущена новая версия поискового движка DataparkSearch 4.40.1. Основыне отличия от предыдущей, 4.38, версии:

  • Переписана проверка базы cached для лучшей производительности. При апгрейде необходимо создать таблицу cachedchk используя команду indexer -Ecreate.
  • Исправлен разбор query string для случая, когда используются оба CGI и SGML кодирования символов.
  • Добавлена поддерджка ключиков HTTP. Используйте команду "Cookies yes" чтобы вкллючить. Эту команду можно указывать для каждой команды Server/Realm в отдельности.
  • Добавлена команда "URLInfoSQL no", выключающая сохранение информации об URL в SQL-базе для способа хранения dbmode.
  • Исправлено сохранение в базе stored документов, сжимаемых при передаче.
  • Переменная поискового шаблона может быть выведена в любой кодировке, например: $(q:UTF-8).
  • Добавлена поддержка кодировки GB18030.
  • Значение hops может учитываться при расчёте рейтинга популярности Neo. Используйте ключ --enable-pophops для configure чтобы включить.
  • При паузе по команде Crawler-delay из robots.txt остальные индексирующие нити теперь не блокируются.
  • Исправлен возможный трап indexer при использовании зеркалирования.
  • Испрален трап демонов при запуске из-под крона или при старте системы.
  • Добавлена команда ColdVar. Используйте её для выключения блокировок файлов в поисковом окружении только для чтения. (только для способа хранения cache).
  • Исправлена возможная утечка памяти при включённой поддержке aspell.
  • Способ расчёта релеватности Ultra модифицирован для лучшей производительности.
  • Исправлена компиляция без zlib.

Новую версию поискового движка также можно установить из портов FreeBSD (www/dpsearch).

1

Выпущена новая версия DataparkSearch 4.38. Основные отличия от предыдущей версии:

  • Значение по умолчанию для ключа configure --with-wrdunifactor изменено на 1.5.
  • Имя шаблона результатов поиска теперь можно передавать через path_info часть URL, например, http://localhost/cgi-bin/search.cgi/template.htm
  • Если для нечёткого поиска с использованием ispell-данных не найдено точного соответсвия в словаре, для построения всех форм слова выбирается запись с максимально совпадающим суффиксом.
  • indexer теперь воспринимает МЕТА-таг DP.PopRank для задания начального значения рейтинга популярности страницы.
  • Исправлен трап indexer на Debian Linux.
  • Исправлена обработка robots.txt для записей с двумя и более полями User-Agent.