Перейти к содержимому

  Google Mini DataparkSearch
Лицензия Коммерческая, исходники закрыты GPL, открытый исходный текст
Число индексируемых документов и цена
  • до 50,000 за $1,995
  • до 100,000 за 2,995
  • до 200,000 за $5,995
  • до 300,000 за $8,995
до нескольких десятков миллионов, в зависимости от используемого железа. Бесплатное ПО.
Индексируемые форматы файлов 220 различных форматов файлов, включая HTML, PDF и документы Microsoft Office. Простой текст, HTML, XML, MP3, GIF, и любой другой через внешние парсеры.
Языки 28 языков 25 языковых групп, может разбивать на слова фразы традиционного письма на китайском, японском, корейском и тайском языках.
Доступ к файлам через HTTP, HTTPS, сетевые фаловые системы. HTTP, HTTPS, FTP, NNTP, HTTP Proxy, локальную файловую систему, htdb:// схема для индексирования SQL баз.
Доступ к защищенному контенту через HTTP Basic, NTLM v1 и v2, LDAP HTTP Basic
Коллекции документов Да Да, каждая коллекция может быть поделена на секции (тэги и категории).
Интеграция результатов поиска в дизайн сайта пользовательская таблица стилей XSLT, экспорт результатов в XML собственный язык шаблона страницы выдачи в любом тестовом формате (включая HTML,RSS,XML).
Синонимы Да Да
Вывод аттрибутов результатов поиска мета тэги мета тэги, заданные аттрибуты HTML, заданные XML тэги, regex-вырезки из текста (все перечисленные называются секциями)
Фильтрация результатов по мэта тэгам Да Да, + по любой секции или комбинации секций.
Задание различных весов мета тэгам/секциям Нет Да
Интеграция с Google Desktop и Google Toolbar for Enterprise Да Нет
Исключение страниц из поискового индекса Да Да
Спелчекер самообучаемый использует aspell
Кэшированные версии документов Да Да
Поиск в заданном числовом интервале Да Нет
Поиск в заданном интервале дат Да Да
Сортировка результатов по Релевантности, Дате Релевантности, Дате, Популярности, Важности и по всем этим в обратном порядке и любой комбинации.
Отчёты
  • Общее число запросов и уникальных запросов
  • Число запросов в день
  • Средние числа запросов по часам суток
  • Топ 100 ключевых слов и запросов
Нет отчётов. Для каждого запроса могут быть записаны все параметры поиска для последующей обработки.
Автоматическое создание Google sitemap Да Нет
OneBox for Enterprise Да Нет
Поддержка пользователей Сайт поддержки; поддержка по email; гарантированная замена отказавшего оборудования Форум на сайте проекта.
Автоматическое реферирование документов Нет Да, Summary Extraction Algorithm
Согласование содержимого по HTTP для заданные языков Нет Да
Ссылочное ранжирование Нет Да, алгоритмы Neo PopRank и Goo PopRank.

//Google Mini features, Google Mini Administrator features, DataparkSearch.

4

На карте пользователей DataparkSearch появилась ещё одна точка: Specialized search engine for rc modells.

2

В этом снапшоте добавлена предварительная версия парсера языка запросов VQL (Verity Query Language), его префиксной версии.

В данный момент поддерживаются только следующие операторы: <OR>, <AND>, <WORD>, <PHRASE>, <ANY>, <NOT> (с ограничениями, аналогичными оператору NOT в языке запросов DataparkSearch для булевского режима поиска).

Для того, чтобы передать запрос на языке VQL, его необходимо передавать в CGI-переменной &vq= одновременно оставив CGI-переменную &q= пустой.

7

SearchTools, один из старейших сайтов-обзоров поисковых движков, обновил информацию о DataparkSearch.

Хорошее слово и кошке приятно 🙂

4

Выпущена новая версия поискового движка DataparkSearch 4.44. Основные отличия от предыдущей версии:

  • Для лучшей производительности модифицирован расчёт рейтинга популярности Neo.
  • Исправлена возможная бесконечная рекурсия в обработке акронимов и аббревиатур.
  • Добавлены команды ResegmentChinese, ResegmentJapanese, ResegmentKorean и ResegmentThai.
  • Исправлен возможный трап в парсере XML.
  • Улучшено разбиение фраз восточноазиатских языков в поисковых запросах для случая, когда язык запроса не задан.
  • Улучшено определение языка и кодировки в случае указания противоречивых данных в заголовках ответа сервера и в мета-тэгах.
  • Данные о символах Unicode обновлены до версии 5.0.0.
  • Переписана регистрация поисковых запросов для searchd. Интерфейс очереди сообщений больше не требуется для этой функции.
  • Наложены более строгие условия автоматичского бновления карт языков.
  • Исправлена загрузка шаблона в случае внутреннего редиректа Apache.
  • Слова, отсутсвующие в словарях ispell, теперь проверяются только по данным, соответствующим языку, указанному в лимите по языку или в качестве языка поискового шаблона.
  • Добавлена поддержка кодировки KOI8-T таджикского языка.
  • Улучшена скорость поиска при использовании схемы DBAddr searchd://
  • searchd переписан в prefork модели.
  • Исправлен баг незавершающихся дочерних процессов searchd.
  • Добавлена поддержка многострочных заголовков HTTP.
  • Исправлен возможный трап версии, скомпилированой без поддержки pthreads.

3

DPKeys -- плагин для WordPress аналогичный плагину WPKeys, только ключевые слова используются для создания ссылок на результаты поиска поисковика чей префикс URL запроса задан в макро DPURLPREFIX macro (см. в код dpkeys.php).

4

Оказывается, если в Google ввести запрос «datapark search», то он переспрашивает: Did you mean: dataparksearch

Конечно, для чистоты проверки нужно посмотреть на этот запрос с машины, на которой никогда не запрашивали поиск по слову dataparksearch, чтобы исключить персонализацию спелчекера.

4

Цвет точки на карте Энзоль соответствует значению Popularity Rank страницы, а сами точки упорядочены слева направо и сверху вниз в порядке возрастания числа хопов (hops) соответствующих веб-страниц. Страницы, явно указанные в конфиге поисковика, получают значение hops равное 0, страницы, предлагаемые к индексированию через веб-форму или были найденые в одном из интерент-каталогов, получают значение hops равным 1. Все остальные страницы при первом попадании в базу поисковика получают значение hops на 1 больше, чем имела страница, где была обнаружена ссылка на эту страницу. В такой сортировке сглаженная карта выглядит так:

Если теперь упорядочить сначала по числу входящих ссылок страницы, а затем по числу хопов, то карта будет выглядеть так:

Сортировка по числу исходящих ссылок, потом числу хопов:

Упорядочивая сначала по разнице между числом входящих и числом исходящих ссылок:

Сортируя сначала по разности между числом исходящих и числом входящих ссылок:

По этим картам можно заметить, что рейтинг популярности (Popularity Rank) как правило выше у страниц, у которых число входящих ссылок само по себе относительно велико, но также и превышает число исходящих ссылок, а также и наоборот, если страница имеет больше исходящих ссылок, чем входящих, то её рейтинг популярности будет как правило ниже.

Добавка: получается, что PopRank более устойчив к ссылочному спаму, немели PageRank от Google.

5

Когда-то с год назад испытывал свой сегментер фраз китайского на одном тесте сегментеров китайского языка. Не совсем удачно, на первое место не попал. Однако с тех пор этот тест прошли ещё несколько программ. И оказалось, что сегментер DataparkSearch (а этот же алгоритм помимо китайского используется также для корейского и тайского языков) превосходит S-MSRSeg от Microsoft Research Asia, ненамного правда 🙂

ЗЫ: китайского не знаю 🙂