Изменения от снапшота dpsearch-4.52-21022009:
- Добавлена команда SkipHrefIn. Используйте её для указания какие HTML тэги нужно пропустить при поиске новых ссылок.
- Добавлена команда SEASections. Используйте её для указания списка секций документов, по которым будет строится SEA-реферат.
- Исправлен возможный трап на пустом документе.
- Команда Disallow в robots.txt больше не приводит к удалению документа из базы.
- Исправлена ошшибка в декодировании больших файлов со сжатым содержимым.
При помощи команды SkipHrefIn можно указывать список HTML тэгов, которые нужно пропустить при поиске новых ссылок.
SkipHrefIn "img, link, script"
Сайт DataparkSearch: www.dataparksearch.org
SkipHrefIn - очень полезная штука!!! А вот Disallow то зря урезали.. ИМХО..
Обработка Disallow по отношению к внешним сайтам не изменилась: если адрес страницы подпадает под правило, сраница не запрашивается. Но эта страница, если она уже попала в базу, там останется, и эта страница сможет быть найдена по словам в ссылках на других сраницах, если эти страницы ссылаются на данную.