Перейти к содержимому

1

На дня показатель Вершков Рунета в тесте навигационного поиска от АиП перевалил за отметку 80%, и на сегодняшний день составляет 82,86%. Чуть более 2% до показателя gogo (85%).

Совсем неплохо для движка с открытым исходным текстом DataparkSearch и однонодовой конфигурации (одна машина для индексировния, одна - для поиска и выделенный SQL-сервер). 🙂

1

Наткнулся на Сравнение поисковых движков Яндекс.Сервер, Sphinx, Tsearch2, DataparkSearch и MnoGoSearch. Примечательно, что по средневзвешенному баллу Яндекс.Сервер уступил двум поисковым движкам с открытым исходным текстом. Итоговый рейтинг выглядит так (в скобочках указан средневзвешенный балл):

  1. Sphinx (4,48);
  2. DataparkSearch (4,33);
  3. Яндекс.Сервер бесплатный (4,24);
  4. Яндекс.Сервер платный (4,09);
  5. MnoGoSearch (3,82);
  6. Tsearch2 (3,45).

1

Взят еще один рубеж качества навигационного поиска Вершков Рунета: сегодня он составил 75.605%.

В принципе улучшения примерно в 10% удалось добиться подбором других весов для секций документов, увеличен вес текстов под ссылками и уменьшены веса текста самого документа (кроме заголовков) и автореферата. Вес заголовка остался неизменным (самым высоким).

1

Из топика форума поискового движка DataparkSearch:

FreeBSD 7 stable
postgresql-server-8.3.1

Обновление ПО дало прирост в скорости прим. 40-50%

4

Сегодня показатель качества навигационного поиска Вершков Рунета впервые преодолел 60%, остановившись на цифре 60,643%.

7

Из-за моей оплошности предыдущий снапшот dpsearch-4.50-23032008, в котором была добавлена поддержка SQLite3, был сделан на основе последнего снапшота версии 4.49, а не 4.50. Снапшот dpsearch-4.50-30032008 исправляет эту ошибку. В этом снапшоте также сделаны небольшие изменения в алгоритме Neo PopRank.

14

Выпущена новая версия DataparkSearch 4.49.

Отличия от предыдущей версии:

  • Улучшен алгоритм токенизации строк. Наприсер, "c--" и "c#" теперь рассматриваются как слова.
  • Реализована технология индексирования поддокументов.
  • Добавлена команда LongestTextItems. Используйте её для задания числа самых длинных текстовых элементов к индексированию.
  • Добавлена поддержка кодировок georgian-academy и georgian-ps.
  • Исправлена предварительная загрузка данных об URL для конфигураций с несколькими DBAddr.
  • Парсер HTML теперь не индексирует внутри тэгов, имеющих в аттрибуте style значение visibility, установленное в none или hidden.
  • Исправлена работа команды Subnet.
  • Добавлен тип мета-переменной поискового шаблона $*(x). Используйте его для вывода значения с HTML-кодировкой недопустимых символов, но без выделения слов запроса.
  • Исправлены $(np) и $(p) в секциях поисковых шаблонов "resbot" и "bottom".
  • Добавлена команда PagesInGroup. Используйте её для указания числа дополнительных результатов с одного сайта при группировке результатов а-ля Google.
  • Исправлена команда ServerWeight.