В Вершках Рунета в правой колонке результатов поиска выводится статистика словоформ запроса. Если хотите потестировать как работает морфология в DataparkSearch на базе словарей ispell + обработка акронимов и аббревиатур и написать отзыв - добро пожаловать. 🙂
Раздел: DataparkSearch
Комбинирование поисков
Примерно с пол-года назад на страницах результатов поиска в поисковиках Интернет Сочи и Вершки Рунета появились вспомогательные поиски (в левой колонке). Сначала это были результаты поиска по тому же запросу, только отсортированные по-другому. Затем их заметили результаты поиска видео (для обоих поисковиков) и поиска по телефонному справочнику (для Интернета Сочи).
И вот компания Google выпускает Related Web Results, фичу для Google Mini и Google Search Appliance, позволяющая интегрировать на страницы результатов поиска результаты поиска по тому же запросу, получаемые в Custom Search Business Edition.
dpsearch-4.49-11012008
Изменения от версии 4.48:
- Реализована технология индексирования поддокументов.
- Добавлена команда LongestTextItems. Используйте её для задания числа самых длинных текстовых элементов к индексированию.
- Добавлена поддержка кодировок georgian-academy и georgian-ps.
- Исправлена предварительная загрузка данных об URL для конфигураций с несколькими DBAddr.
- Парсер HTML теперь не индексирует внутри тэгов, имеющих в аттрибуте style значение visibility, установленное в none или hidden.
- Исправлена работа команды Subnet.
- Добавлен тип мета-переменной поискового шаблона $*(x). Используйте его для вывода значения с HTML-кодировкой недопустимых символов, но без выделения слов запроса.
- Исправлены $(np) и $(p) в секциях поисковых шаблонов "resbot" и "bottom".
- Добавлена команда PagesInGroup. Используйте её для указания числа дополнительных результатов с одного сайта при группировке результатов а-ля Google.
Самое главное: исправлена утечка памяти при перезагрузке конфигурации searchd и при использовании предзагрузки данных об URL. Однако это касается только предыдущих снапшотов версии 4.49.
Индексирование поддокументов
В последнем снапшоте поискового движка DataparkSearch внедренные объекты (фреймы, флэшролики и т.п.) индексируются как поддокументы страницы, где они были найдены, т.е. их контент будет отнесен к этой странице.
Точно также индексируются и страницы с 302-редиректом, т.е. содержимое страницы куда осуществляется переход считается содержимым страницы откуда идет переход.
Указаные изменения уже работают в поисковых машинах Вершки Рунета и Интернет Сочи.
Качество навигационного поиска
Сделал ежедневную проверку качества навигационного поиска Вершков Рунета используя запросы и сайты-маркеры от Ашманова и партнеров (плюс добавил один свой запрос "мета коминс" и сайт-маркер для него meta.ru -- Яндекс, Гугол и Рамблер с этим запросом справляются, у Гого почему-то с ним проблемы).
Результат на сегодня: 54.804% сайтов-маркеров выдается на первой странице, средняя их позиция в выдаче: 2.1558. Этот результат превосходит показатели поисковиков Апорт (42.5%) и Liveinternet (36.0%).
Данные за последние 14 дней и сравнение с другими поисковиками по информеру от Ашманова и партнеров можно смотреть на этой странице.
Литовские словари
Словари литовского языка для ispell и aspell, которые можно использовать с DataparkSearch, находятся здесь: ftp.akl.lt/ispell-lt/.
www/dpsearch
FreeBSD порт www/dpsearch обновлен до версии DataparkSearch 4.48.
DataparkSearch 4.48
Выпущена новая версия DataparkSearch 4.48.
Отличия от предыдущей версии:
- Исправлен возможный трап поиска в мульти-DBAddr конфигурации.
- Исправлен оператор поиска фраз.
- Исправлены операторы будевого поиска NEAR и ANYWORD.
- Содержимое секций CDATA в XML-документах теперь обрабатывается HTML-пармером.
- Исправлена обработка Server nofollow в парсере XML.
- Исправлена обработка секций в парсере XML при внутренней рекурсии.
- Добавлен тип лимита cache mode "link".
- Добавлена поддержка библиотеки libtre.
- Добавлена команда TrackDBAddr. Используется для указания SQL-базы для хранения параметров поисковых запросов.
- Исправлена обработка конструкций NEAR NOT и ANYWORD NOT в режиме поиска boolean.
- Добавлен пэкадж исходного текста для Debian. Спасибо Amit Joshi <ajoshi [at] optonline dot net>.
- Добавлен параметр label для команды DBAddr.
- Исправлена команда "Robots no".
- Ключ -f может теперь спользоваться для указания indexer списка файлов к индесированию.
- Исправлены некоторые баги.
Кренделеобразные хвосты обрублены
В последнем снапшоте поискового движка DataparkSearch обрублены "кренделеобразные хвосты", -- исправлен небольшой баг морфологического расширения поиска для слов, осутствующих в словаре ispell. До этого момента, для незнакомых слов, в которых встречались буквы ё и й (любые буквы с диакретическими знаками для других языков), использовалась основа с опущеными диакритическими знаками (иными словами буквы без акцентов), т.е. вместо положенного "кренделеобразный" использовалось "кренделеобразныи", из-за чего терялся самый главный вариант слова.
Осталось добавить учет обоих этих вариантов (с и без голочки над и), но это дело техники, в ближайшие дни поправлю.
dpsearch-4.48-16082007
Изменения от версии 4.47:
- Добавлен пэкадж исходного текста для Debian. Спасибо Amit Joshi <ajoshi [at] optonline dot net>
- Добавлен параметр label для команды DBAddr.
- Исправлена команда "Robots no".
- Ключ -а может теперь спользоваться для указания indexer спискафайлов к индесированию.
- Исправлены некоторые баги.
Параметр label. Format: label=DBAlabel. Этот параметр может быть использован для назначения метки команде DBAddr. Таким образом, если вы передадите DataparkSearch CGI-переменную label, тогда только DBAddr, помеченная значением параметра label будет использоваться при выполнении поиска. Следовательно, вы можете использовать одного демона searchd для ответа на поисковые запросы по нескольким поисковым база, выбираемым по значению параметра label.
Замечание: Если не передано CGI-параметра label, в этом случае только DBAddr без пометки label будет использоваться для выполнения поискового запроса.
Я совершенно не разбираюсь в дэбианских пэкаджах, поэтому, если у кого будут замечания и пожелания, -- с удовольствием выслушаю. Также буду благодарен за ссылку на хорошую доку на русском, описывающую работу с дебианскими пэкаджами исходного текста.
//См. DataparkSearch Engine.