Перейти к содержимому

2

Eye tracking in MSN Search: Investigating snippet length, target position and task types -- Исследование от Microsoft Research, использовавшее технологию отслеживания движения глаз пользователей для анализа изменений в предствлении результатов поиска MSN Search.

Основной результат: увеличение размера сниппета значительно улучшает восприятие результатов для информационных запросов, однако ухудшает для навигационных.

4

Цвет точки на карте Энзоль соответствует значению Popularity Rank страницы, а сами точки упорядочены слева направо и сверху вниз в порядке возрастания числа хопов (hops) соответствующих веб-страниц. Страницы, явно указанные в конфиге поисковика, получают значение hops равное 0, страницы, предлагаемые к индексированию через веб-форму или были найденые в одном из интерент-каталогов, получают значение hops равным 1. Все остальные страницы при первом попадании в базу поисковика получают значение hops на 1 больше, чем имела страница, где была обнаружена ссылка на эту страницу. В такой сортировке сглаженная карта выглядит так:

Если теперь упорядочить сначала по числу входящих ссылок страницы, а затем по числу хопов, то карта будет выглядеть так:

Сортировка по числу исходящих ссылок, потом числу хопов:

Упорядочивая сначала по разнице между числом входящих и числом исходящих ссылок:

Сортируя сначала по разности между числом исходящих и числом входящих ссылок:

По этим картам можно заметить, что рейтинг популярности (Popularity Rank) как правило выше у страниц, у которых число входящих ссылок само по себе относительно велико, но также и превышает число исходящих ссылок, а также и наоборот, если страница имеет больше исходящих ссылок, чем входящих, то её рейтинг популярности будет как правило ниже.

Добавка: получается, что PopRank более устойчив к ссылочному спаму, немели PageRank от Google.

4

В статье от Microsoft Research Learning to Search Web Pages with Query-Level Loss Functions вводится понятие функции потерь на уровне запроса (query-level loss function, интересно как это правильно переводить, что-то я ничего похожего пока не нашёл, разве что loss function = "функция потерь" в англо-русском метематичеком словере).

Самое интересное в том, что функция рейтинга страниц, используемая в DataparkSearch уже несколько лет как (с самого рождения, но с различными модификациями), удовлетвоярет всем требованиям к этой функции потерь: независимость от числа документов и пар документов по запросу, выделять самые релевантные документы из списка найденых, быть ограниченой сверху конечной величиной. В TREC 2005 проверялись два варианта такой функции.
Есть повод покумекать над аналогичным алгоритмом "обучения"...

FRank -- новый метод ранжирования от Microsoft Research, основанный на функции потери точности (Fidelity loss).

3

Есть ещё что почитать про поиск на русском: Программа и Труды Восьмой Всероссийской Научной Конференции «ЭЛЕКТРОННЫЕ БИБЛИОТЕКИ: ПЕРСПЕКТИВНЫЕ МЕТОДЫ И ТЕХНОЛОГИИ, ЭЛЕКТРОННЫЕ КОЛЛЕКЦИИ»

2

После победы бельгийских издателей в суде над Google по поводу использования их контента без разрешения, коалиция новостных издательств готовит к запуску глобальный проект ACAP (Automated Content Access Protocol), который позволит в дальнейшем избежать подобных судебных разбирательств. Система ACAP будет автоматически сообщать агрегаторам, ботам и др. пользователям об авторстве и условиях использования контента сайта.

Запуск ACAP намечен на конец этого года.

//WAN-Press.org

3

На 11-ой Международной конференции WWW (World Wide Web) была представлена статья, озаглавленная "Вычисление PageRank и структура Всемирной сети: эксперименты и алгоритмы, PageRank Computation and the Structure of the Web: Experiments and Algorithms (pdf). В этой статье кратко давались идеи ускорения расчёта PageRank. Трое авторов в то время работали в исследовательском центре IBM в Алмадене (Almaden) и один - в Стэнфордском университете.
Спустя 4 года, компания IBM получила патент на метод быстрого вычисления PageRank, основывающийся на этих идеях:

System and method for rapid computation of PageRank
Invented by John Anthony Tomlin, Andrew S. Tomkins, and Arvind Arasu
Assigned to IBM
US Patent 7,089,252
Granted August 8, 2006
Filed April 25, 2002

Двое из изобретателей, Джон Энтони Томлин (John Anthony Tomlin) и Эндрю Томкинс (Andrew S. Tomkins) сейчас работают в Yahoo!, а Арвин Аразу (Arvind Arasu) в Microsoft.

//SEO by the SEA

На проходящей в эти дни в Сиэтле (США) конференции SIGIR-2006, Microsoft Research представила работу: Using Web-Graph Distance for Relevance Feedback in Web Search, Sergei Vassilvitskii (Stanford University), Eric Brill. Для улучшения ранжирования документов в выдаче рассматривается в общем-то широкоизвестная гипотеза, состоящая из двух постулатов:

  • Релевантные страницы ссылаются на другие релевантные страницы;
  • На нерелевантные страницы ссылаются другие нерелевантные страницы.

В данной работе предложен алгоритм, по которому в процессе улучшения рейтинга рассматриваются не только ближайшие соседи, но также и все страницы на и с которых ссылаются вплоть до четвёртого колена. И, естественно, показывается, что такой подход позволяет улучшить релевантность выдачи.

В экспериментах использовался движок и база MSN Search. Используется ли такой алгоритм при обслуживании запросов от обычных пользователей и будет ли нечто подобное использоваться в ближайшем будущем пока неизвестно.

Доступны в онлайн некоторые труды, представленные Microsoft Research на SIGIR-2006, проходящей сечас в Сиэтле (США).

UPDATE: неправильная ссылка исправлена.

1

BigTbale -- новая распределенная структура данных от Google. Возможно и основа для нового сервиса.