1

Выпущен новый снапшот DataparkSearch Engine версии 4.54. Вы можете скачать его с Google Drive.

Ниже дан список изменений с момента выпуска предыдущего снапшота:

  • Секция Crossword теперб включает значения аттрибута TITLE тэга IMG и значения атрибутов ALT и TITLE тэгов A и LINK, найденных на страницах, ссылающихся на индексируемый документ
  • Мета PROPERTY теперь индексируется
  • Мета-информация об URL теперь сохраняется для всех документов с HTTP статус-кодом < 400
  • configure скрипт теперь понимает ключ --without-libextractor, позволяющий собрать dpsearch без поддержки libextractor даже если эта библиотека установлена
  • Включена поддержка robots.txt для сайтов, индексируемых с использованием HTTPS
  • Добавлена команда AuthPing, позволяющая посылать авторизационные запросы перед началом индексирования сайта. См. детали ниже.
  • Добавлена команда Cookie
  • Добавлена поддержка SOCKS5 прокси серверов без авторизации или с использованием авторизации по логину и паролю. См. детали ниже.
  • небольшие исправления

...читать далее "dpsearch-4.54-2015-07-06"

2

Яндекс заявляет о поддержке директивы Crawl-Delay своими роботами. Однако, хотя robots.txt сайта inet-sochi.ru явно указывает, что не желает видеть бота Яндекса чаще раза в секунду (указав Crawl-Delay: 1), бот же Яндекса совершенно этой просьбе не следует (вернее программеры не допрограммировали или менеджеры не донесли до программеров, что он них требуется - не суть важно).
...читать далее "Опять Яндекс и robots.txt"

1

Если посмотреть на файл robots.txt от Facebook, то можно заметить, что он закрыл все свои страницы для ботов, кроме ботов Baidu, Google, Yahoo, Bing, Naver, Seznam, Teoma и Яндекса.
...читать далее "Facebook и robots.txt"

20

Похоже поддержку символов-джокеров (wildcard caharcters) для расширения шаблонов в robots.txt для Googlebot писали люди, слабо знакомые с этими самыми символами-джокерами.
...читать далее "Googlebot и robots.txt"

1

Законопроект Великобритании предусматривает защиту поисковиков от претензий в нарушении авторских прав.

В течении последних лет в США ведутся активные дискуссии, нарушают ли Google и другие поисковые машины законодательство по защите авторского права при индексировании разного рода контента. Дело о сканировании книг - именно тяжба по авторскому праву. И новостные издания неоднократно обвиняли Google в создании новостного сервиса google News на основе их защищаемых авторским правом материалах. Новостные агентства AP и AFP подавали в суд на Google за нарушение авторских прав. (Сделка, урегулировавшая случай с AP, сейчас находится в стадии обновления).
...читать далее "Законопроект Великобритании защитит поисковики"

Эксперимент с убиранием директивы Host: из robots.txt в секции для бота Яндекс окончился неудачно, для сайта.

То, что Яндекс "расклеит" зеркала, не было так уж неожиданным. Но вот почему в индексе из двух копий одних и тех же страниц остаются копии сайтов с меньшим ТИЦ (и соответственно на более низких позициях) и с большим временем отклика, - непонятно. Похоже из двух копий страницы на зеркалах Яндекс выбирает то зеркало, которое имеет IP, географическая привязка которого совпадает с георграфической привязкой сайта, а не тот, который отдает контент быстрее и чье доменное имя имеет и больший ТИЦ и больший PR.

Google же прекрасно справляется с "зеркалами" даже без директивы Host:.

21

По случаю Хэллоуина, комания Google внесла дополнение в robots.txt своего поисковика новый набор правил:


User-agent: Kids
Disallow: /tricks
Allow: /treats

...читать далее "Google и robots.txt"

112

$ lynx -mime_header http://sochi2014.com/robots.txt
HTTP/1.1 200 OK
Date: Thu, 10 Sep 2009 17:15:09 GMT
Server: Apache/1.3.37 (Unix) mod_accel/1.0.34
Content-Length: 77
Content-Type: text/plain; charset=windows-1251
Connection: close

User-agent: *
Disallow: /pictures
Disallow: /scripts
Host: www.sochi2014.com

Однако: ...читать далее "Host: www.sochi2014.com"

1

Выпущена новая версия, 4.52, DataparkSearch Engine. Основные отличия от предыдущей версии:

5

Изменения от снапшота dpsearch-4.52-21022009:

  • Добавлена команда SkipHrefIn. Используйте её для указания какие HTML тэги нужно пропустить при поиске новых ссылок.
  • Добавлена команда SEASections. Используйте её для указания списка секций документов, по которым будет строится SEA-реферат.
  • Исправлен возможный трап на пустом документе.
  • Команда Disallow в robots.txt больше не приводит к удалению документа из базы.
  • Исправлена ошшибка в декодировании больших файлов со сжатым содержимым.

...читать далее "dpsearch-4.52-06042009"