3

Выпущен новый снапшот DataparkSearch Engine. Он доступен на Google Drive или on GitHub.

Изменения от предыдущего снапшота:

  • Исправлена схема SQL для MySQL5
  • Исправлено падение при обработке ссылок без указанной схемы
  • Новое определение версии Apache
  • Исправлено построение crossword секции
  • HTML тэги p, option и input теперь могут быть секциями
  • Более тонкая спячька для нитей при невозможности залочить мютекс
  • Исправлена компиляция на FreeBSD 10
  • Добавлена команда Robots collect
  • Исправлено падение при задании лимита dt:minute
  • Выключена обработка карт-сайтов для Server/Realm/Subnet с указанным аттрибутом nofollow
  • Ряд незначительных исправлений

Я планирую прекратить поддержку Apache 1.3 в будущем, дайте мне знать, если вы все еще его используете.

8

Сервис поиска по блогам компании Яндекс предлагает получать результаты поиска в формате RSS. Какое-то время назад выдача в RSS стала глючить для некоторых запросов. Например, для запроса "Google Mini" выдаются документы, не содержащие ни слово Google ни слово Mini, зато выделяются нули:
...читать далее "Глюки blogs.yandex.ru/rss"

8

Боту поисковой машины Google теперь можно указать, какие страницы нельзя переводить при помощи сервиса Google Translate.

Чтобы запретить перевод страницы целиком, достаточно указать мета-тег:

<meta name="google" value="notranslate">

Также возможен запрет перевода части страницы. Для этого можно любому тегу HTML документа добавить класс notranslate:

<span class="notranslate">sales at example dot com</span>

1

Выпущена новая версия, 4.52, DataparkSearch Engine. Основные отличия от предыдущей версии:

5

Результаты тестирования HTML валидатором страниц выдачи поисковиков:

Nigma 836 Errors, 688 warning(s)
Yahoo! 256 Errors, 44 warning(s)
Google 140 Errors, 2 warning(s)
Яндекс 85 Errors, 36 warning(s)
GoGo 35 Errors, 3 warning(s)
Рамблер 21 Errors, 18 warning(s)
Live 16 Errors
43N39E 1 Error

2

Изменения от снапшота dpsearch-4.52-21022009:

  • Добавлена команда SkipHrefIn. Используйте её для указания какие HTML тэги нужно пропустить при поиске новых ссылок.
  • Добавлена команда SEASections. Используйте её для указания списка секций документов, по которым будет строится SEA-реферат.
  • Исправлен возможный трап на пустом документе.
  • Команда Disallow в robots.txt больше не приводит к удалению документа из базы.
  • Исправлена ошшибка в декодировании больших файлов со сжатым содержимым.

...читать далее "dpsearch-4.52-06042009"

2

Если использовать Гуглову почту в варианте интерфейса HTML Basic, то просматривая длиннные сообщения (например, логи) можно нарваться на неприятный (но несмертельный) баг: в верху окна интерфейса есть ссылка 'Show original' - она работает и можно просмотреть сообщение целиком со всеми заголовками так, как оно пришло. Если же сообщение длинное, то целиком оно в окне Gmail не показывается, сообщение обрезается и приводится ссылка '[Message clipped] View entire message' - вот эта ссылка никогда не работает, при клике на неё появляется сообщение:

Это достаточно долгоиграющий баг, ему более полугода точно, если не более...

2

Выпущена новая версия, 4.50, DataparkSearch Engine. Основные отличия от предыдущей версии:

  • Значение по умолчанию для команды PopRankSkipSameSite изменено на "yes".
  • Исправлена возможная утечка памяти при индексировании поддокумента из базы stored.
  • Добавлен параметр strict для команды Section.
  • Добавлено автоматическое разбиение на слова для сокращений во французском языке.
  • Добавлены большие листы синонимов английского и русского языков.
  • Команда MaxSiteLevel теперь принимает отрицательный аргумент задающий группировку URL по поддиректориям.
  • Расширены возможности команды SkipUnreferred. Теперь с её помощью можно удалять документы, на которые никто не ссылается.
  • Обработка логов удаления исправлена в splitter в случае пустых логов обновления.
  • Некоторые немецкие буквы автоматически заменяются двубуквенными комбинациями при поиске без учета акцентов символов.
    Eszett (scharfes S) -> SS, A with diaeresis -> AE, O with diaeresis -> OE, U with diaeresis -> UE.
  • Добавлена поддержка SQLite3. Используйте ключ --with-sqlite3 для configure чтобы включить её.
  • Исправлено индексирование документов с несколькими версиями на разных языках.
    При апргрейде вам необходимо выполнить команду "indexer -Erehashstored".
  • Парсер HTML теперь понимает коментарии <!-- google_ad_section_start -->,
    <!-- google_ad_section_start(weight=ignore) --> и <!-- google_ad_section_end --> как тэги для включения/исключения контента из индексирования.
  • Улучшен подсчет релевантности при использовании акронимов и аббревиатур.

15

Выпущена новая версия DataparkSearch 4.49.

Отличия от предыдущей версии:

  • Улучшен алгоритм токенизации строк. Наприсер, "c--" и "c#" теперь рассматриваются как слова.
  • Реализована технология индексирования поддокументов.
  • Добавлена команда LongestTextItems. Используйте её для задания числа самых длинных текстовых элементов к индексированию.
  • Добавлена поддержка кодировок georgian-academy и georgian-ps.
  • Исправлена предварительная загрузка данных об URL для конфигураций с несколькими DBAddr.
  • Парсер HTML теперь не индексирует внутри тэгов, имеющих в аттрибуте style значение visibility, установленное в none или hidden.
  • Исправлена работа команды Subnet.
  • Добавлен тип мета-переменной поискового шаблона $*(x). Используйте его для вывода значения с HTML-кодировкой недопустимых символов, но без выделения слов запроса.
  • Исправлены $(np) и $(p) в секциях поисковых шаблонов "resbot" и "bottom".
  • Добавлена команда PagesInGroup. Используйте её для указания числа дополнительных результатов с одного сайта при группировке результатов а-ля Google.
  • Исправлена команда ServerWeight.

6

Изменения от версии 4.48:

  • Реализована технология индексирования поддокументов.
  • Добавлена команда LongestTextItems. Используйте её для задания числа самых длинных текстовых элементов к индексированию.
  • Добавлена поддержка кодировок georgian-academy и georgian-ps.
  • Исправлена предварительная загрузка данных об URL для конфигураций с несколькими DBAddr.
  • Парсер HTML теперь не индексирует внутри тэгов, имеющих в аттрибуте style значение visibility, установленное в none или hidden.
  • Исправлена работа команды Subnet.
  • Добавлен тип мета-переменной поискового шаблона $*(x). Используйте его для вывода значения с HTML-кодировкой недопустимых символов, но без выделения слов запроса.
  • Исправлены $(np) и $(p) в секциях поисковых шаблонов "resbot" и "bottom".
  • Добавлена команда PagesInGroup. Используйте её для указания числа дополнительных результатов с одного сайта при группировке результатов а-ля Google.

Самое главное: исправлена утечка памяти при перезагрузке конфигурации searchd и при использовании предзагрузки данных об URL. Однако это касается только предыдущих снапшотов версии 4.49.