dpsearch-4.52-06042009

Изменения от снапшота dpsearch-4.52-21022009:

  • Добавлена команда SkipHrefIn. Используйте её для указания какие HTML тэги нужно пропустить при поиске новых ссылок.
  • Добавлена команда SEASections. Используйте её для указания списка секций документов, по которым будет строится SEA-реферат.
  • Исправлен возможный трап на пустом документе.
  • Команда Disallow в robots.txt больше не приводит к удалению документа из базы.
  • Исправлена ошшибка в декодировании больших файлов со сжатым содержимым.


При помощи команды SkipHrefIn можно указывать список HTML тэгов, которые нужно пропустить при поиске новых ссылок.

SkipHrefIn "img, link, script"

Сайт DataparkSearch: www.dataparksearch.org

dpsearch-4.52-06042009: 5 комментариев

  1. Maxime

    Обработка Disallow по отношению к внешним сайтам не изменилась: если адрес страницы подпадает под правило, сраница не запрашивается. Но эта страница, если она уже попала в базу, там останется, и эта страница сможет быть найдена по словам в ссылках на других сраницах, если эти страницы ссылаются на данную.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *