Technologies/Algorithms — Страница 3

В свободной доступ выложены труды TREC 2007.

Cluster Computing and MapReduce 3

Mike10 января 20083 комментария

Цикл из пяти лекций Google: Cluster Computing and MapReduce.

TREC-2007: genomics track 2

Максим Захаров9 ноября 20074 мая 20102 комментария

Стали доступны некоторые материалы TREC-2007, genomics track:

Обзор genomics track 2007
Презентация Illinois Institute of Technology: IIT TREC-2007 Genomics Track: Using Concept-based Semantics in Context for Genomics Literature Passage Retrieval.
Презентация National Library of Medicine: Combining resources to find answers to biomedical questions.
Презентация University of Amsterdam: Bootstrapping Language Associated with Biomedical Entities.
Презентация University of Illinois at Chicago: UIC at TREC 2007: Genomics Track.
Презентация University of Illinois at Champaign-Urbana: Language Models for Genomics Information Retrieval.

Полностью материалы TREC-2007 появятся в публичном доступе в начале 2008 года.

Супер-метод

Максим Захаров26 октября 200723 октября 2009Добавить комментарий

Возвращаясь к сравнительному анализу методов определения нечетких дубликатов для Web-документов, удивительно, как имея 12 различных методов, авторы не додумались до супер-метода, когда все эти 12 методов "голосуют", т.е. пара документов считается дубликатами, если таковыми их посчитали 3 и более методов из описанных 12. Вместо 3 можно брать любое число и смотреть как меняется точность и полнота.

Вместо всех 12 методов можно взять методы с наименьшей вычислительной сложностью и посмотреть, сможет ли их "голосование" превзойти более ресурсоемкие методы.

Высокие слова 12

Mike23 октября 200723 сентября 200912 комментариев

В закрытом загончике обсуждают работу сотрудников Яндекса, выполненную в рамках РОМИП:

Это ключевая публикация Яндекса в этом году. Можно считать, что Яндекс владеет технологией подавления заимствованного контента, т.е. сформированы предпосылки приоритета контента в поисковом продвижении.

Слишком высокие эпитеты для обычной обзорной статьи. Да, предложены новые методы, но, как отмечено немного ранее и в другом месте, эти алгоритмы решают только одну часть проблемы: когда один и тот же документ (с возможно небольшими модификациями) отдаётся по разным URL. Для случая злостного спамера, специально значительно коверкающего копируемые тексты, эти алгоритмы не работают, или работают много хуже.

Второй аспект: ну определит Яндекс, что два документа с разных серверов являются дублями друг друга, а дальше что ? У него же нет достоверного способа узнать первоисточник (кто автор), -- просто в технологиях HTTP и HTML (да собственно ни в каком более-менее широко используемом протоколе или формате файла) не предусмотрено гарантированного и подтверждаемого третьей стороной указания даты публикации. Принимать решение в такой ситуации все равно, что бросать монетку.

Для исправления ситуации в файлe russian.aff.koi для флага *K нужно расширить правило


[ВГДСТ] О > -О,-

до


[ВГДЛСТ] О > -О,-

Раздел: Technologies/Algorithms

Google I/O sessions 3

Труды TREC 2007 15

Cluster Computing and MapReduce 3

TREC-2007: genomics track 2

Супер-метод

Высокие слова 12

Netflix год спустя 12

Функции затухания важности 3

KosmosFS

Дело … ; … тел 2