Компания Софтлайн открыла страницу демонстрации возможностей Google Search Appliance (GSA). Неприменул протестировать и сравниться. 🙂 Сравнивалось число найденых документов и время работы по второй попытке с запросом "Google":
...читать далее "Померился"
Раздел: DataparkSearch
dpsearch-4.51-17112008
Изменения, добавленные со времени снапшота dpsearch-4.51-27092008:
- Добавлена команда FastHrefCheck. Используйте её для выключения проверки ссылок против списка серверов на этапе парсинга страницы.
- Добавлена поддержка кодировки KOI8-C (вариант KOI8-R с буквами старо-русского алфавита).
- Добавлена команда ActionSQL. Используйте её для выполнения SQL-запросов с данными документа во время индексирования.
//DataparkSearch Engine
...читать далее "dpsearch-4.51-17112008"
dpsearch-4.51-27092008
Изменения от версии 4.50, добавленные с предыдущего снапшота:
- Добавлена команда SubDocCnt. Используйте её для задания максимального числа индексируемых поддокументов для одного документа.
- Добавлена команда SubDocLevel. Используйте её для задания максимального уровня вложенности поддокументов.
- Исправлена обработка HrefSection
- Добавлена мета-переменная $(url.directory).
- storedoc.cgi теперь принимает имя шаблона в CGI-параметре &tmplt=.
- Поправлен HTTP-заголовок Accept: для случая указания шаблона Content-Type в команде MIME.
- Исправлена ошибка в смешивании результатов поиска при использовании multi-dbaddr.
Цветные карты Neo PopRank
В дополнение к картам новозеландского интернета (TLD .nz) сделал аналогичные карты для бельгийского инета (TLD .be). Каждой точке на картах соответвует сайт в том или другом сегменте интернета. Цвет точки зависит от значения Neo PopRank этого сайта в поисковой машине Вершки Рунета. Цветовая шкала аналогичка раскраске географических карт - чем выше рейтинг популярности сайта, тем "выше" соответвующий участок карты.
...читать далее "Цветные карты Neo PopRank"
dpsearch-4.51-11082008
Изменения от версии 4.50:
- Добавлен оператор allin<section>: к языку поисковых запросов.
- storedoc.cgi теперь если документ недоступен в базе stored получает его непосредственно с сервера.
www/dpsearch
Порт FreeBSD www/dpsearch обновлен до последней выпущенной версии DataparkSearch, 4.50.
DataparkSearch 4.50
Выпущена новая версия, 4.50, DataparkSearch Engine. Основные отличия от предыдущей версии:
- Значение по умолчанию для команды PopRankSkipSameSite изменено на "yes".
- Исправлена возможная утечка памяти при индексировании поддокумента из базы stored.
- Добавлен параметр strict для команды Section.
- Добавлено автоматическое разбиение на слова для сокращений во французском языке.
- Добавлены большие листы синонимов английского и русского языков.
- Команда MaxSiteLevel теперь принимает отрицательный аргумент задающий группировку URL по поддиректориям.
- Расширены возможности команды SkipUnreferred. Теперь с её помощью можно удалять документы, на которые никто не ссылается.
- Обработка логов удаления исправлена в splitter в случае пустых логов обновления.
- Некоторые немецкие буквы автоматически заменяются двубуквенными комбинациями при поиске без учета акцентов символов.
Eszett (scharfes S) -> SS, A with diaeresis -> AE, O with diaeresis -> OE, U with diaeresis -> UE. - Добавлена поддержка SQLite3. Используйте ключ --with-sqlite3 для configure чтобы включить её.
- Исправлено индексирование документов с несколькими версиями на разных языках.
При апргрейде вам необходимо выполнить команду "indexer -Erehashstored". - Парсер HTML теперь понимает коментарии <!-- google_ad_section_start -->,
<!-- google_ad_section_start(weight=ignore) --> и <!-- google_ad_section_end --> как тэги для включения/исключения контента из индексирования. - Улучшен подсчет релевантности при использовании акронимов и аббревиатур.
Сравнение DataparkSearch
20 страничное сравнение свободнодоступных поисковых движков (PDF), по состоянию на март 2006. Сравниваются Nutch, mnoGoSearch, DataparkSearch и ht//Dig.
Расширение запросов
В блоге Яндекса для вебмастеров появилась заметка о расширении запросов в "Магадане". Добавлен учет отношений:
- некоторые типы переходов из одной части речи в другую («гамбург» -> «гамбургский»);
- транслитерация («mazda» -> «мазда»);
- аббревиатуры (МГУ -> Московский государственный университет).
Последние два отношения, транслитерация и аббревиатуры, появились в поисковом движке DataparkSearch более года назад. Правда, в отличие от Яндекса, пока пополнение производится вручную. Однако использование этих отношений позволило улучшить показатели Вершков Рунета в тесте навигационного поиска Ашманова и Партнеров примерно с 60% до 80%.
Удивительно, что создав систему автоматического сбора аббревиатур, основанную на анализе текстов, компания Яндекс упустила такую мелкую деталь стандарта HTML4, как тэги <ABBR> и <ACRONYM>.
dataparksearch @ google code
DataparkSearch обзавелся вторым домом на Google Code.
Теперь появилась возможность забирать исходники по svn:
svn checkout http://dataparksearch.googlecode.com/svn/trunk/ dataparksearch-read-only
а также сообщать о багах и предлагать новые фичи: dataparksearch issues