Перейти к содержимому

12

23 июня я сравнивал "Вершки Рунета" по тесту Ашманова и Партнеров. Тогда были получены результаты: 239 (20,33%) | 2,92.

Сегодня этот тест (по запросам на 23 июня) был повторен, и результат заметно улучшился: 166 (44,67%) | 2,08.

Сравнительная таблица выглядит так:

YANDEX RAMBLER GOOGLE GOGO 43N39E
35 (88,3%) | 1,36 88 (70,7%) | 1,63 10 (96,7%) | 1,21 28 (90,7%) | 1,28 166 (44,67%) | 2,08

FreeBSD порт www/dpsearch обновлен до последней версии DataparkSearch 4.47.

5

Выпущена новая версия DataparkSearch 4.47.

Отличия от предыдущей версии:

  • Тэги и категории теперь сохраняются в таблице urlinfo и могут быть назначены каждому документу в отдельности.
  • Исправлена навигация по страницам результатов в случае использования кэширования поисковых запросов.
  • Реализована поддержка crosswords для способа хранения cache.
  • Исправлен возсожный трап при индексировании через NNTP.
  • Для сложносоставных слов, имеющих точки, запятые, тире, подчеркивания и слэши в качестве разделителей между частями слова реализован автоматический поиск их как фраз.
  • Улучшено восстановление соединения с MySQL при незаплонированном разрыве соединения.
  • Изменён алгоритм расчёта релевантности full.
  • Условные операторы теперь могут быть использованы в секции переменных поискового шаблона.
  • Исправлено сохранение документов в базе stored, для значений StoredFiles, отличных от значения по умолчанию.
  • Улучшен алгорит построения словоформ для слов: не найденых в словарях ispell.
  • mod_dpsearch теперь выдаёт кодировку BrowserCharset в заголовках ответа сервера.
  • Для searchd, cached и stored добавлен ключ -f для запуска их в фореграунде (без демонизации).
  • Исправлены некоторые баги.

1

Лист рассылки dataparksearch[at]datapark.ru деактивирован.

Если вы хотите продолжить получать информацию о DataparkSearch Engine, вы можете подписаться на группу dataparksearch в Yahoo Groups.

2

DataparkSearch Engine добавлен в T2 System Development Environment, проект гибкой среды системной разработки с открытым исходным текстом.

См. www.t2-project.org/packages/dpsearch.html.

3

Для поисковых машин «Интернет Сочи» и «Вершки Рунета» при ранжировании документов добавляется пенальти, если слова поискового запроса не найдены в виде целой фразы. Тем самым немного улучшен поиск для многословных запросов.

Эта возможность реализована в последнем снапшоте поискового движка DataparkSearch (пока только для метода расчёта релевантности full).

6

Выпущена новая версия DataparkSearch Engine, 4.46, основные отличия от предыдущей версии:

  • Немного модифицирован алгоритм построения рефератов (SEA).
  • Добавлен ключ -B для indexer. Используется для переиндексации из базы stored.
  • Исправлена ошибка в сортировке логов cached mode (внесена с версии 4.45). Необходимо остановить cached и выполнить команду "indexer -Eresort" для восстановления базы.
  • Модифицирован Neo PopRank.
  • Исправлен трап на 64-битных платформах.
  • Исправлен трап при внутреннем редиректе Apache.
  • Добавлена поддержка библиотеки c-ares, асинхронного DNS-резолвера.
  • Исправлены некоторые баги.

Обновлена статья, описывающая Neo Popularity Rank: Neo.pdf.

Порт FreeBSD www/dpsearch обновлен до последней выпущенной версии DataparkSearch.

Выпущена новая версия поискового движка DataparkSearch 4.45.1. Основные отличия от предыдущей версии 4.44:

  • Добавлен ключ -G для indexer. Используёте его для ограничения работы indexer суммарным объёмов проиндексированых документов в мегабайтах.
  • Переписан parser.c для избежания повисания внешних парсеров всех типов.
  • Исправлено ошибочное добавление лишних записей в таблицу "server".
  • Исправлен баг записи неполных буферов cache mode для случая, когда cached не испольуется.
  • Добавлен парсер Verity Query Language (префиксный вариент). Поддержживаются только следующие операторы: <OR>, <AND>, <WORD>, <PHRASE>, <NEAR>, <NOT>, <ACCRUE>.
  • Добавлены команды MinSiteWeight и MinServerWeight. Используются для задания минимального веса сайта или сервера принимаемого к индексированию.
  • Исправлено повышенное использование CPU в searchd.
  • Исправлен возможный трап на системах без библиотечной реализации функции setproctitle.
  • Новый алгоритм определения необходимости сегментирования фраз восточных языков.
  • Теперь можно выводить последние 128 байт переменной поискового шаблона используя $(xx:128:right) тип переменных шаблона.
  • Исправлены некоторые баги (включая #180, #181).