Перейти к содержимому

3

Компания Софтлайн открыла страницу демонстрации возможностей Google Search Appliance (GSA). Неприменул протестировать и сравниться. 🙂 Сравнивалось число найденых документов и время работы по второй попытке с запросом "Google":
...читать далее "Померился"

2

Изменения, добавленные со времени снапшота dpsearch-4.51-27092008:

  • Добавлена команда FastHrefCheck. Используйте её для выключения проверки ссылок против списка серверов на этапе парсинга страницы.
  • Добавлена поддержка кодировки KOI8-C (вариант KOI8-R с буквами старо-русского алфавита).
  • Добавлена команда ActionSQL. Используйте её для выполнения SQL-запросов с данными документа во время индексирования.

//DataparkSearch Engine
...читать далее "dpsearch-4.51-17112008"

3

Изменения от версии 4.50, добавленные с предыдущего снапшота:

  • Добавлена команда SubDocCnt. Используйте её для задания максимального числа индексируемых поддокументов для одного документа.
  • Добавлена команда SubDocLevel. Используйте её для задания максимального уровня вложенности поддокументов.
  • Исправлена обработка HrefSection
  • Добавлена мета-переменная $(url.directory).
  • storedoc.cgi теперь принимает имя шаблона в CGI-параметре &tmplt=.
  • Поправлен HTTP-заголовок Accept: для случая указания шаблона Content-Type в команде MIME.
  • Исправлена ошибка в смешивании результатов поиска при использовании multi-dbaddr.

...читать далее "dpsearch-4.51-27092008"

3

В дополнение к картам новозеландского интернета (TLD .nz) сделал аналогичные карты для бельгийского инета (TLD .be). Каждой точке на картах соответвует сайт в том или другом сегменте интернета. Цвет точки зависит от значения Neo PopRank этого сайта в поисковой машине Вершки Рунета. Цветовая шкала аналогичка раскраске географических карт - чем выше рейтинг популярности сайта, тем "выше" соответвующий участок карты.
...читать далее "Цветные карты Neo PopRank"

9

Изменения от версии 4.50:

  • Добавлен оператор allin<section>: к языку поисковых запросов.
  • storedoc.cgi теперь если документ недоступен в базе stored получает его непосредственно с сервера.

...читать далее "dpsearch-4.51-11082008"

2

Выпущена новая версия, 4.50, DataparkSearch Engine. Основные отличия от предыдущей версии:

  • Значение по умолчанию для команды PopRankSkipSameSite изменено на "yes".
  • Исправлена возможная утечка памяти при индексировании поддокумента из базы stored.
  • Добавлен параметр strict для команды Section.
  • Добавлено автоматическое разбиение на слова для сокращений во французском языке.
  • Добавлены большие листы синонимов английского и русского языков.
  • Команда MaxSiteLevel теперь принимает отрицательный аргумент задающий группировку URL по поддиректориям.
  • Расширены возможности команды SkipUnreferred. Теперь с её помощью можно удалять документы, на которые никто не ссылается.
  • Обработка логов удаления исправлена в splitter в случае пустых логов обновления.
  • Некоторые немецкие буквы автоматически заменяются двубуквенными комбинациями при поиске без учета акцентов символов.
    Eszett (scharfes S) -> SS, A with diaeresis -> AE, O with diaeresis -> OE, U with diaeresis -> UE.
  • Добавлена поддержка SQLite3. Используйте ключ --with-sqlite3 для configure чтобы включить её.
  • Исправлено индексирование документов с несколькими версиями на разных языках.
    При апргрейде вам необходимо выполнить команду "indexer -Erehashstored".
  • Парсер HTML теперь понимает коментарии <!-- google_ad_section_start -->,
    <!-- google_ad_section_start(weight=ignore) --> и <!-- google_ad_section_end --> как тэги для включения/исключения контента из индексирования.
  • Улучшен подсчет релевантности при использовании акронимов и аббревиатур.

20 страничное сравнение свободнодоступных поисковых движков (PDF), по состоянию на март 2006. Сравниваются Nutch, mnoGoSearch, DataparkSearch и ht//Dig.

126

В блоге Яндекса для вебмастеров появилась заметка о расширении запросов в "Магадане". Добавлен учет отношений:

  • некоторые типы переходов из одной части речи в другую («гамбург» -> «гамбургский»);
  • транслитерация («mazda» -> «мазда»);
  • аббревиатуры (МГУ -> Московский государственный университет).

Последние два отношения, транслитерация и аббревиатуры, появились в поисковом движке DataparkSearch более года назад. Правда, в отличие от Яндекса, пока пополнение производится вручную. Однако использование этих отношений позволило улучшить показатели Вершков Рунета в тесте навигационного поиска Ашманова и Партнеров примерно с 60% до 80%.

Удивительно, что создав систему автоматического сбора аббревиатур, основанную на анализе текстов, компания Яндекс упустила такую мелкую деталь стандарта HTML4, как тэги <ABBR> и <ACRONYM>.

2

DataparkSearch обзавелся вторым домом на Google Code.

Теперь появилась возможность забирать исходники по svn:

svn checkout http://dataparksearch.googlecode.com/svn/trunk/ dataparksearch-read-only

а также сообщать о багах и предлагать новые фичи: dataparksearch issues