DataparkSearch — Страница 9

DataparkSearch vs Google Mini

Максим Захаров18 марта 200718 октября 2008Добавить комментарий

	Google Mini	DataparkSearch
Лицензия	Коммерческая, исходники закрыты	GPL, открытый исходный текст
Число индексируемых документов и цена	до 50,000 за $1,995 до 100,000 за 2,995 до 200,000 за $5,995 до 300,000 за $8,995	до нескольких десятков миллионов, в зависимости от используемого железа. Бесплатное ПО.
Индексируемые форматы файлов	220 различных форматов файлов, включая HTML, PDF и документы Microsoft Office.	Простой текст, HTML, XML, MP3, GIF, и любой другой через внешние парсеры.
Языки	28 языков	25 языковых групп, может разбивать на слова фразы традиционного письма на китайском, японском, корейском и тайском языках.
Доступ к файлам через	HTTP, HTTPS, сетевые фаловые системы.	HTTP, HTTPS, FTP, NNTP, HTTP Proxy, локальную файловую систему, htdb:// схема для индексирования SQL баз.
Доступ к защищенному контенту через	HTTP Basic, NTLM v1 и v2, LDAP	HTTP Basic
Коллекции документов	Да	Да, каждая коллекция может быть поделена на секции (тэги и категории).
Интеграция результатов поиска в дизайн сайта	пользовательская таблица стилей XSLT, экспорт результатов в XML	собственный язык шаблона страницы выдачи в любом тестовом формате (включая HTML,RSS,XML).
Синонимы	Да	Да
Вывод аттрибутов результатов поиска	мета тэги	мета тэги, заданные аттрибуты HTML, заданные XML тэги, regex-вырезки из текста (все перечисленные называются секциями)
Фильтрация результатов по мэта тэгам	Да	Да, + по любой секции или комбинации секций.
Задание различных весов мета тэгам/секциям	Нет	Да
Интеграция с Google Desktop и Google Toolbar for Enterprise	Да	Нет
Исключение страниц из поискового индекса	Да	Да
Спелчекер	самообучаемый	использует aspell
Кэшированные версии документов	Да	Да
Поиск в заданном числовом интервале	Да	Нет
Поиск в заданном интервале дат	Да	Да
Сортировка результатов по	Релевантности, Дате	Релевантности, Дате, Популярности, Важности и по всем этим в обратном порядке и любой комбинации.
Отчёты	Общее число запросов и уникальных запросов Число запросов в день Средние числа запросов по часам суток Топ 100 ключевых слов и запросов	Нет отчётов. Для каждого запроса могут быть записаны все параметры поиска для последующей обработки.
Автоматическое создание Google sitemap	Да	Нет
OneBox for Enterprise	Да	Нет
Поддержка пользователей	Сайт поддержки; поддержка по email; гарантированная замена отказавшего оборудования	Форум на сайте проекта.
Автоматическое реферирование документов	Нет	Да, Summary Extraction Algorithm
Согласование содержимого по HTTP для заданные языков	Нет	Да
Ссылочное ранжирование	Нет	Да, алгоритмы Neo PopRank и Goo PopRank.

//Google Mini features, Google Mini Administrator features, DataparkSearch.

Ещё одна точка на карте 4

Максим Захаров16 марта 20074 комментария

На карте пользователей DataparkSearch появилась ещё одна точка: Specialized search engine for rc modells.

dpsearch-4.45-0803207 2

Максим Захаров8 марта 20072 комментария

В этом снапшоте добавлена предварительная версия парсера языка запросов VQL (Verity Query Language), его префиксной версии.

В данный момент поддерживаются только следующие операторы: <OR>, <AND>, <WORD>, <PHRASE>, <ANY>, <NOT> (с ограничениями, аналогичными оператору NOT в языке запросов DataparkSearch для булевского режима поиска).

Для того, чтобы передать запрос на языке VQL, его необходимо передавать в CGI-переменной &vq= одновременно оставив CGI-переменную &q= пустой.

SearchTools о DataparkSearch 7

Максим Захаров2 февраля 20077 комментариев

SearchTools, один из старейших сайтов-обзоров поисковых движков, обновил информацию о DataparkSearch.

Хорошее слово и кошке приятно 🙂

Wow! 1

Максим Захаров23 января 20071 комментарий

Быстренько, однако, обновление порта FreeBSD www/dpsearch прошло, всего каких-то 1 час 40 мин. от момента посыла. 🙂

DataparkSearch 4.44 4

Максим Захаров22 января 20074 комментария

Выпущена новая версия поискового движка DataparkSearch 4.44. Основные отличия от предыдущей версии:

Для лучшей производительности модифицирован расчёт рейтинга популярности Neo.
Исправлена возможная бесконечная рекурсия в обработке акронимов и аббревиатур.
Добавлены команды ResegmentChinese, ResegmentJapanese, ResegmentKorean и ResegmentThai.
Исправлен возможный трап в парсере XML.
Улучшено разбиение фраз восточноазиатских языков в поисковых запросах для случая, когда язык запроса не задан.
Улучшено определение языка и кодировки в случае указания противоречивых данных в заголовках ответа сервера и в мета-тэгах.
Данные о символах Unicode обновлены до версии 5.0.0.
Переписана регистрация поисковых запросов для searchd. Интерфейс очереди сообщений больше не требуется для этой функции.
Наложены более строгие условия автоматичского бновления карт языков.
Исправлена загрузка шаблона в случае внутреннего редиректа Apache.
Слова, отсутсвующие в словарях ispell, теперь проверяются только по данным, соответствующим языку, указанному в лимите по языку или в качестве языка поискового шаблона.
Добавлена поддержка кодировки KOI8-T таджикского языка.
Улучшена скорость поиска при использовании схемы DBAddr searchd://
searchd переписан в prefork модели.
Исправлен баг незавершающихся дочерних процессов searchd.
Добавлена поддержка многострочных заголовков HTTP.
Исправлен возможный трап версии, скомпилированой без поддержки pthreads.

Плагин DPKeys для WordPress 3

Максим Захаров20 декабря 20063 комментария

DPKeys -- плагин для WordPress аналогичный плагину WPKeys, только ключевые слова используются для создания ссылок на результаты поиска поисковика чей префикс URL запроса задан в макро DPURLPREFIX macro (см. в код dpkeys.php).

Попал в спелчекер 4

Максим Захаров11 декабря 20064 комментария

Оказывается, если в Google ввести запрос «datapark search», то он переспрашивает: Did you mean: dataparksearch

Конечно, для чистоты проверки нужно посмотреть на этот запрос с машины, на которой никогда не запрашивали поиск по слову dataparksearch, чтобы исключить персонализацию спелчекера.

Немного когнитивности 4

Максим Захаров10 декабря 20064 комментария

Цвет точки на карте Энзоль соответствует значению Popularity Rank страницы, а сами точки упорядочены слева направо и сверху вниз в порядке возрастания числа хопов (hops) соответствующих веб-страниц. Страницы, явно указанные в конфиге поисковика, получают значение hops равное 0, страницы, предлагаемые к индексированию через веб-форму или были найденые в одном из интерент-каталогов, получают значение hops равным 1. Все остальные страницы при первом попадании в базу поисковика получают значение hops на 1 больше, чем имела страница, где была обнаружена ссылка на эту страницу. В такой сортировке сглаженная карта выглядит так:

Если теперь упорядочить сначала по числу входящих ссылок страницы, а затем по числу хопов, то карта будет выглядеть так:

Сортировка по числу исходящих ссылок, потом числу хопов:

Упорядочивая сначала по разнице между числом входящих и числом исходящих ссылок:

Сортируя сначала по разности между числом исходящих и числом входящих ссылок:

По этим картам можно заметить, что рейтинг популярности (Popularity Rank) как правило выше у страниц, у которых число входящих ссылок само по себе относительно велико, но также и превышает число исходящих ссылок, а также и наоборот, если страница имеет больше исходящих ссылок, чем входящих, то её рейтинг популярности будет как правило ниже.

Добавка: получается, что PopRank более устойчив к ссылочному спаму, немели PageRank от Google.

Мелкая приятность 5

Максим Захаров8 ноября 20065 комментариев

Когда-то с год назад испытывал свой сегментер фраз китайского на одном тесте сегментеров китайского языка. Не совсем удачно, на первое место не попал. Однако с тех пор этот тест прошли ещё несколько программ. И оказалось, что сегментер DataparkSearch (а этот же алгоритм помимо китайского используется также для корейского и тайского языков) превосходит S-MSRSeg от Microsoft Research Asia, ненамного правда 🙂

ЗЫ: китайского не знаю 🙂