Перейти к содержимому

2

Выпущена новая версия поискового движка DataparkSearch 4.43. Основные отличия от предыдущей версии:

  • Исправлена возможность SQL-инъекции для некорректного имени хоста в URL.
  • Добавлена команда ProvideReferer yes/no. Используйте её для включения передачи заголовка Referer для соединений по HTTP и HTTPS
  • Добавлена поддержка кодовой страницы cp775 (Baltic Rim DOS codepage).
  • Добавлены ISO 639-2 и наиболее распространённые алиасы языков для определителя языков и кодировок.
  • Значение по умолчанию CGI-параметра &ps= изменено на 10.
  • Исправлена неправильная обработка круглых скобок в режимах поиска кроме логического.
  • Добавлена команда MaxDepth, ограничивающая глубину директории индексируемых URL.
  • Команда ReplaceVar теперь принимает значение переменной шаблона в кодировке BrowserCharset. Чтобы добавить переменную шаблона в кодировке LocalCharset используйте команду ReplaceVarLcs.
  • Исправлен возможный трап при использовании команд Store/NoStore.
  • Исправлена команда Alias в шаблоне search.htm.
  • Добавлены команды SEASentences и SEASentenceMinLength.
  • Семантика ключа -r для indexer изменена на обратную. Изменён алгоритм перемешивания URL.
  • Изменён способ расчёта релевантности Ultra.
  • Добавлена команда MaxSiteLevel. (См. запись в блоге).
  • Добавлена команда CrawlDelay. Используйте для указания поузы в секундах по умолчанию между последовательными запросами документов с одного сервера.
  • Neo PopRank теперь может вычислаться несколькими нитями одновременно (например: "indexer -TRN4").

20

В официальном блог Google Enterprise Search опубликова заметка, описывающая возможности расширения поисковых запросов. В принципе функциональность такая же как и DataparkSearch, за исключением, что DataparkSearch не поддерживает многосвловную синонимию (т.е. когда два и более слова ставятся в соответсвие двум и более словам), но зато DataparkSearch может автоматически расширять запрос вариантами слов без акцентов над буквами (по-другому их называют диакритическими знаками).

4

Добавлена команда MaxSiteLevel. Используйте её для указания максимального уровня доменного имени, используемого для вычисления site_id (используется для группировки результатов по сайтам). Значение по умолчанию: 2. Одно исключение: трёх и менее буквенные домены второго уровня считаются доменами первого уровня. Например:

  • domain.ext — уровень 2
  • www.domain.ext — уровень 3
  • domain.com.ext — уровень 2

Изменён способ расчёта релевантности Ultra.

5

Выпущена новая версия поискового движка DataparkSearch 4.42. Основные отличия от предыдущей, 4.41, версии:

  • Произведены некоторые модификации для ускорения работы.
  • Улучшен парсер XML.
  • CRC32 везде заменена на Hash32. Возможны коллизии в определении клонов при апрейде.
  • Исправлена поддержка cache:// dbtype в searchd.
  • Исправлена небольшая ошибка раскодирования сжатого контента.
  • Indexer теперь может собирать географические координаты, указываемые в специальных мета тэгах.
  • Добавлен CGI-параметр &empty=. Исользуйте его для выключения использования лимитов для выдачи результатов, если не введено ни одного слова поискового запроса.
  • Добавлена команда UseDateHeader. Используйте её для определения даты документа по HTTP заголовку Date, если заголовок Last-Modified не указан.
  • Добавлена асинхронная обработка SQL команд для PgSQL.
  • Модифицирована обработка клонов для лучшей производительности.
  • Исправлен возможный трап при построении цитаты документа.
  • Добавлен ключ -z для indexer. Используйте для ограничения документами со значением hops не более указаного.
  • Исправлены некоторые баги (#175, #176).

4

В августовском номере журнал "Сисетмный администратор" опять уделил внимание проекту DataparkSearch Engine.

...читать далее "Опять “Системный администратор”"

4

A new version of DataparkSearch 4.41 has been released. Changes since previous release are:

  • A small bug in optimisation of corrupted cache database has been fixed.
  • The CharsToEscape command has beed added. Use it to specify the list of characters to escape for $∓(x) search template meta-variables.
  • The Neo PopRank has been slightly modified.
  • Incorrect processing of LocalCharset has been fixed for non-multithread version.
  • exec: virtual scheme has been fixed.
  • An option for install.pl has been added to select the support for extra charsets.
  • "AddURl: URL not found" erroneous warning has been fixed for case when UseCRC32URLId is enabled.
  • A new command "MarkForIndex yes/no" has been added.
  • mod_dpsearch can now be built without SQL-server support for cache mode only version. Use --enable-apachecacheonly switch for configure to enable and cache:// dbtype for DBAddr command in mod_dpsearch related configuration files.
  • The growing of error message has been fixed for mod_dpsearch.
  • A new command "ReplaceVar name value" has been added.
  • The "near" search mode has been fixed.
  • The Summary Extraction Algorithm (SEA) has been modified for better performance.

Выпущена новая версия поискового движка DataparkSearch 4.41. Основные отличия от предыдущей, 4.40.1, версии:

  • Исправлена небольшая ошибка отимизации битой базы cache mode.
  • Добавлена команда CharsToEscape. Используйте её для указания списка символов подлежащих HTML-кодированию в $&(x) мета-переменных поискового шаблона.
    Немного модифицирован алгоритм Neo расчёта рейтинга популярности.
  • Исправлена обработка LocalCharset для версии без поддержки нитей.
  • Исправлена виртуальная схема exec:
  • В скрипт install.pl добавлена опция включения поддержки дополнительных кодировок.
  • Исправлено ошибочное предупреждение "AddURl: URL not found" в случае использования команды "UseCRC32URLId yes".
  • Добавлена новая команда "MarkForIndex yes/no".
  • mod_dpsearch может быть собран без поддержки SQL-сервера, только для способа хранения cache. Используйте ключ --enable-apachecacheonly для configure чтобы включить и dbtype cache:// для команд DBAddr в файла конфигрурации для mod_dpsearch.
  • Исправлен рост сообщения об ошибке в mod_dpsearch.
  • Добавлена новая команда "ReplaceVar name value".
  • Исправлен режим поиска "near".
  • Изменен Алгоритм Построения Рефератов (SEA) для лучшей производительности.

5

Журнал "Системный администратор" в майском номере (№5) за 2006 год опубликовал статью "Возможности поискового движка" DataparkSearch. По сути это самая подробная инструкция по установке этого движка на русском языке, с введением и заключением. 🙂

Если кому не удастся купить номер журнала, то примерно через полгода после выхода номера становяться доступными в электронном виде с сайта издания.

2

Выпущена новая версия поискового движка DataparkSearch 4.40.1. Основыне отличия от предыдущей, 4.38, версии:

  • Переписана проверка базы cached для лучшей производительности. При апгрейде необходимо создать таблицу cachedchk используя команду indexer -Ecreate.
  • Исправлен разбор query string для случая, когда используются оба CGI и SGML кодирования символов.
  • Добавлена поддерджка ключиков HTTP. Используйте команду "Cookies yes" чтобы вкллючить. Эту команду можно указывать для каждой команды Server/Realm в отдельности.
  • Добавлена команда "URLInfoSQL no", выключающая сохранение информации об URL в SQL-базе для способа хранения dbmode.
  • Исправлено сохранение в базе stored документов, сжимаемых при передаче.
  • Переменная поискового шаблона может быть выведена в любой кодировке, например: $(q:UTF-8).
  • Добавлена поддержка кодировки GB18030.
  • Значение hops может учитываться при расчёте рейтинга популярности Neo. Используйте ключ --enable-pophops для configure чтобы включить.
  • При паузе по команде Crawler-delay из robots.txt остальные индексирующие нити теперь не блокируются.
  • Исправлен возможный трап indexer при использовании зеркалирования.
  • Испрален трап демонов при запуске из-под крона или при старте системы.
  • Добавлена команда ColdVar. Используйте её для выключения блокировок файлов в поисковом окружении только для чтения. (только для способа хранения cache).
  • Исправлена возможная утечка памяти при включённой поддержке aspell.
  • Способ расчёта релеватности Ultra модифицирован для лучшей производительности.
  • Исправлена компиляция без zlib.

Новую версию поискового движка также можно установить из портов FreeBSD (www/dpsearch).

1

Ruby интерфейс к Dataparksearch: maxidoors.ru/udmsearch-ruby.tar.bz2.

Автор: Max Lapshin, maxidoors.ru