Перейти к содержимому

9

Изменения от версии 4.50:

  • Добавлен оператор allin<section>: к языку поисковых запросов.
  • storedoc.cgi теперь если документ недоступен в базе stored получает его непосредственно с сервера.

...читать далее "dpsearch-4.51-11082008"

9

Команда разработчиков открытого поисковика Wikia Search, строящегося на принципах Википедии, когда каждый пользователь может влиять на выдачу, выпустили Wikia Evolution, тулбар, предназначенный для расширения взаимодействия пользователей с поиском. Тулбар доступен в виде плагина к Firefox.

Помимо основной функции тулбара поисковика, - формы ввода запроса, тулбар позволяет добавлять URL, открытый в данный момент в браузере, в поисковый индекс Wikia Search, одновременно связывая этот URL с одним или несколькими ключевыми словами, по которым эта ссылка должна находиться по мнению пользователя. Google экспериментирует с чем-то похожим. Но разработчики Wikia Search идут дальше, их тулбар позволяет модифицировать выдачу не покидая страницы, которая открыта в броузере.

Но и это не все, тулбар от Wikia Search поволяет использовать выдачу Google, Google News и Yahoo! Search для добавления ссылок в индекс Wikia Search, а также для выставления рейтинга (от одной до пяти звезд) этим ссылкам.

Естественно, этот тулбар - open source software.

//Wikia Search Blog

2

Выпущена новая версия, 4.50, DataparkSearch Engine. Основные отличия от предыдущей версии:

  • Значение по умолчанию для команды PopRankSkipSameSite изменено на "yes".
  • Исправлена возможная утечка памяти при индексировании поддокумента из базы stored.
  • Добавлен параметр strict для команды Section.
  • Добавлено автоматическое разбиение на слова для сокращений во французском языке.
  • Добавлены большие листы синонимов английского и русского языков.
  • Команда MaxSiteLevel теперь принимает отрицательный аргумент задающий группировку URL по поддиректориям.
  • Расширены возможности команды SkipUnreferred. Теперь с её помощью можно удалять документы, на которые никто не ссылается.
  • Обработка логов удаления исправлена в splitter в случае пустых логов обновления.
  • Некоторые немецкие буквы автоматически заменяются двубуквенными комбинациями при поиске без учета акцентов символов.
    Eszett (scharfes S) -> SS, A with diaeresis -> AE, O with diaeresis -> OE, U with diaeresis -> UE.
  • Добавлена поддержка SQLite3. Используйте ключ --with-sqlite3 для configure чтобы включить её.
  • Исправлено индексирование документов с несколькими версиями на разных языках.
    При апргрейде вам необходимо выполнить команду "indexer -Erehashstored".
  • Парсер HTML теперь понимает коментарии <!-- google_ad_section_start -->,
    <!-- google_ad_section_start(weight=ignore) --> и <!-- google_ad_section_end --> как тэги для включения/исключения контента из индексирования.
  • Улучшен подсчет релевантности при использовании акронимов и аббревиатур.

9

Наконец-то дошли руки открыть книжку Ашманова и Иванова "Продвижение сайта в поисковых системах". Сразу наткнулся на корявое определение URL:

По определению Яндекса, "URL (от англ. Universal Resource Locator, как правило, произносится "урл") -- это адрес страницы в Интернете. URL состоит из доменного имени (см. домен), пути к странице на сайте и имени файла страницы. Например: www.rossia.ru/moskva/arbat/domknigi.htm. Здесь www.rossia.ru -- доменное имя сайта, /moskva/arbat/ -- путь и domknigi.htm -- имя файла. ...

Инересно, а господа Ашманов и Иванов не читают RFC ? В частности RFC1738 дает нужное (общее) определение URL следующим образом:

In general, URLs are written as follows:       <scheme>:<scheme-specific-part>

A URL contains the name of the scheme being used (<scheme>) followed

   by a colon and then a string (the <scheme-specific-part>) whose

   interpretation depends on the scheme.

...

 While the syntax for the rest of the URL may vary depending on the

   particular scheme selected, URL schemes that involve the direct use

   of an IP-based protocol to a specified host on the Internet use a

   common syntax for the scheme-specific data:

//<user>:<password>@<host>:<port>/<url-path>

...

[и далее расшифровываются составные части URL.]

Интересно, отальная книга написана в том же духе ?

2

Судя по всему у Яндекса баг в обработке 301-редиректа. Сейчас в выдаче по запросу "Работа в Сочи" в выдаче показывается ссылка http://sochi.org.ru/job :
ya-301-1.jpg
...читать далее "Еще один баг Яндекса"

2

Exalead Video Search открыт для добавления любого видеохостинга. Для этого нужно оформить экспорт в формате Media RSS и отправить URL фида для добавления.

//ExaBlog

14

Выпущена новая версия DataparkSearch 4.49.

Отличия от предыдущей версии:

  • Улучшен алгоритм токенизации строк. Наприсер, "c--" и "c#" теперь рассматриваются как слова.
  • Реализована технология индексирования поддокументов.
  • Добавлена команда LongestTextItems. Используйте её для задания числа самых длинных текстовых элементов к индексированию.
  • Добавлена поддержка кодировок georgian-academy и georgian-ps.
  • Исправлена предварительная загрузка данных об URL для конфигураций с несколькими DBAddr.
  • Парсер HTML теперь не индексирует внутри тэгов, имеющих в аттрибуте style значение visibility, установленное в none или hidden.
  • Исправлена работа команды Subnet.
  • Добавлен тип мета-переменной поискового шаблона $*(x). Используйте его для вывода значения с HTML-кодировкой недопустимых символов, но без выделения слов запроса.
  • Исправлены $(np) и $(p) в секциях поисковых шаблонов "resbot" и "bottom".
  • Добавлена команда PagesInGroup. Используйте её для указания числа дополнительных результатов с одного сайта при группировке результатов а-ля Google.
  • Исправлена команда ServerWeight.

6

Изменения от версии 4.48:

  • Реализована технология индексирования поддокументов.
  • Добавлена команда LongestTextItems. Используйте её для задания числа самых длинных текстовых элементов к индексированию.
  • Добавлена поддержка кодировок georgian-academy и georgian-ps.
  • Исправлена предварительная загрузка данных об URL для конфигураций с несколькими DBAddr.
  • Парсер HTML теперь не индексирует внутри тэгов, имеющих в аттрибуте style значение visibility, установленное в none или hidden.
  • Исправлена работа команды Subnet.
  • Добавлен тип мета-переменной поискового шаблона $*(x). Используйте его для вывода значения с HTML-кодировкой недопустимых символов, но без выделения слов запроса.
  • Исправлены $(np) и $(p) в секциях поисковых шаблонов "resbot" и "bottom".
  • Добавлена команда PagesInGroup. Используйте её для указания числа дополнительных результатов с одного сайта при группировке результатов а-ля Google.

Самое главное: исправлена утечка памяти при перезагрузке конфигурации searchd и при использовании предзагрузки данных об URL. Однако это касается только предыдущих снапшотов версии 4.49.

ICANN, международная организация, занимающаяся регулирование Интернета, приступила к тестовым испытаниям URL, записаным в алфавитах, отличных от уже привычной всем латинице. Речь идет об 11 языках: арабском, персидском, китайском (упрощенном и традиционном), русском, хинди, греческом, корейском, идише, японском и тамильском.

Используется технология IDN (Iternationalised Domain Names). Если ваш броузер полностью поддерживает IDN, вы сможете перейти по этому URL: http://пример.испытание; все остальные броузеры смогут попасть на эту страницу по следующему URL: http://пример.испытание. Как можно заметить, в этих URL домены верхнего уровня (TLD) указаны на русском, -- ранее TLD записывались только латиницей (A-Z).

Когда завершится период испытания и технология IDN получит статус принятого стандарта точно неизвестно, к этим испытаниям ICANN шла 7 лет, ровно столько обсуждается введение интернационализации URL.

//ICANN, ZDNet.fr

20

При выполнении такого запроса: Australia’s most renowned, Гугл отчего-то начинает выделять символы s в URL найденых документов (отображаются зеленым цветом).
google-bug.jpg