3

Выпущен новый снапшот DataparkSearch Engine. Он доступен на Google Drive или on GitHub.

Изменения от предыдущего снапшота:

  • добавлено задание таймаута чтения для сокета на основе значения таймаута чтения документа
  • добавлена поддержка библиотек wolfssl и mbedtls
  • добавлено отслеживание таймаутов для https
  • убрана поправка на вес сервера перед записью URL PopRank в данные об URL
  • исправлена компиляция без openssl
  • улучшено определение OpenSSL
  • добавлен ключ --enable-mcmodel для configure
  • исправлены флаги компиляции свободной от нитей версии libdpsearch в случае сборки без модуля Apache
  • переход на CRYPTO_THREADID для OpenSSL 1.0.0 и выше
  • небольшие исправления и обновления

1

Выпущен новый снапшот DataparkSearch Engine версии 4.54. Вы можете скачать его с Google Drive.

Ниже дан список изменений с момента выпуска предыдущего снапшота:

  • Секция Crossword теперб включает значения аттрибута TITLE тэга IMG и значения атрибутов ALT и TITLE тэгов A и LINK, найденных на страницах, ссылающихся на индексируемый документ
  • Мета PROPERTY теперь индексируется
  • Мета-информация об URL теперь сохраняется для всех документов с HTTP статус-кодом < 400
  • configure скрипт теперь понимает ключ --without-libextractor, позволяющий собрать dpsearch без поддержки libextractor даже если эта библиотека установлена
  • Включена поддержка robots.txt для сайтов, индексируемых с использованием HTTPS
  • Добавлена команда AuthPing, позволяющая посылать авторизационные запросы перед началом индексирования сайта. См. детали ниже.
  • Добавлена команда Cookie
  • Добавлена поддержка SOCKS5 прокси серверов без авторизации или с использованием авторизации по логину и паролю. См. детали ниже.
  • небольшие исправления

...читать далее "dpsearch-4.54-2015-07-06"

Доступен новый снапшот DataparkSearch Engine: dpsearch-4.54-2014-01-09.

Основные отличия от предыдущего снапшота:

  • Добавлены часовой и минутный тип лимитов
  • Исправлена компиляции при указании ключа --without-aspell для configure
  • Исправлено испольщование неиницализированного значения в некоторых случаях при использовании aspell

Пример использования минутного лимита для ограничения поиска по времени (по умолчанию используется часовой тип лимита).
...читать далее "dpsearch-4.54-2014-01-09"

3

Доступен новый снапшот DataparkSearch Engine: dpsearch-4.54-2013-12-31.

Основные отличия от предыдущего снапшота:

  • улучшено определение кодировки/языка в случае когда они указаны либо только в мета, либо только в заголовках ответа сервера
  • исправлено зацикливание а случае, когда значение htdblimit не задано в файле конфигурации
  • Исправлено возможное падение при неиспользовании расширений aspell
  • Добаылены команды AllowIf/DisallowIf
  • исправлено автоматическое построение IDN-шаблона для команды 'Server page'
  • дабавлена записть данных об URL для страниц переадресации в случае включенной поддержки поддокументов
  • Восстановлена работа функции зеркалирования проиндексированных сайтов
  • Добавлено добавление значения атрибута alt тэга img в секцию кросс-слов crossword для изобращения, на которое указывает этот тэг

Соответствующие пэкаджи в формате Ubuntu/Debian и RPM доступны во вкладке Download на Google Code.

3

Ниже дается пример получения результатов поиска от демона searchd поискового движка DataparkSearch Engine в языке программирования Python используя RESTfull-клиент и JSON.
...читать далее "Доступ к результатам DataparkSearch из Python"

dpurl2text - новая утилита, появившаяся в последнем снапшоте DataparkSearch Engine.

Эта утилита предназначена для просмотра всех секций документа по указанному URL так, как они были распарсены или получены DataparkSearch в процессе индексированния с конфигурацией по умолчанию или с указаной в качестве дополнительного параметра.

Это отладочная утилита для DataparkSearch Engine, позволяющая проверить, работает ли индексирование так, как ожидалось.

2

Сергей Петренко, директор Яндекс-Украина, в своем блоге путает два понятия в одно.

Изначально, в более узком смысле, Согласование содержимого (Content negotiation) - это механизм, заложенный в протокол HTTP, позволяющий показывать по одному URL контент, наиболее удобным способом отображаемый конретным агентом для конкретного пользователя. В частности, речь идет о выборе языка документа и его вида (MIME Type).

В более широком смысле, под согласованием содержимого как раз и подпадают все "удобности" Яндекса по показу погоды, рассписания, ТВ-программы и др. под конретного пользователя - здесь именно согласовывается (на основании IP-адреса клиента, или его предпочтений из профиля) какая именно информация наиболее полезна для пользователя. Именно содержимого, и именно таким образом, что если поисковый робот зайдет с тем же IP (в действительности с IP того же региона), теми же предпочтениями языка и вида документа, ему будет выдан тот же контен, что и пользователю.

Клоакинг же (Cloaking) - это именно выдача поисковому роботу другой информации, нежели пользователю, независимости от одинаковости с ним всех остальных параметров, с целью влияния на выдачу поисковой машины.

131

Выпущена новая версия, 4.53, DataparkSearch Engine. Основные отличия от предыдущей версии:
...читать далее "DataparkSearch 4.53"

6

Изменения в снапшоте dpsearch-4.53-24122009 относительно снапшота dpsearch-4.53-12092009:
...читать далее "dpsearch-4.53-24122009"

6

Брендон Лейбовиц (Brandon Leibowitz)

Google в очередной раз обновил свой поисковый алгоритм и PageRank. Это было положительно встречено многими вебмастерами, другие же пытаются понять, что же случилось с пейджрэнком их сайтов. Здесь дается то, что вам нужно знать о самом последнем обновлении и как подготовиться к следующему.
...читать далее "Ноябрьское 2009 обновление гуглова PageRank и алгоритма"