Перейти к содержимому

2

Стали доступны некоторые материалы TREC-2007, genomics track:

Полностью материалы TREC-2007 появятся в публичном доступе в начале 2008 года.

Возвращаясь к сравнительному анализу методов определения нечетких дубликатов для Web-документов, удивительно, как имея 12 различных методов, авторы не додумались до супер-метода, когда все эти 12 методов "голосуют", т.е. пара документов считается дубликатами, если таковыми их посчитали 3 и более методов из описанных 12. Вместо 3 можно брать любое число и смотреть как меняется точность и полнота.

Вместо всех 12 методов можно взять методы с наименьшей вычислительной сложностью и посмотреть, сможет ли их "голосование" превзойти более ресурсоемкие методы.

12

В закрытом загончике обсуждают работу сотрудников Яндекса, выполненную в рамках РОМИП:

Это ключевая публикация Яндекса в этом году. Можно считать, что Яндекс владеет технологией подавления заимствованного контента, т.е. сформированы предпосылки приоритета контента в поисковом продвижении.

Слишком высокие эпитеты для обычной обзорной статьи. Да, предложены новые методы, но, как отмечено немного ранее и в другом месте, эти алгоритмы решают только одну часть проблемы: когда один и тот же документ (с возможно небольшими модификациями) отдаётся по разным URL. Для случая злостного спамера, специально значительно коверкающего копируемые тексты, эти алгоритмы не работают, или работают много хуже.

Второй аспект: ну определит Яндекс, что два документа с разных серверов являются дублями друг друга, а дальше что ? У него же нет достоверного способа узнать первоисточник (кто автор), -- просто в технологиях HTTP и HTML (да собственно ни в каком более-менее широко используемом протоколе или формате файла) не предусмотрено гарантированного и подтверждаемого третьей стороной указания даты публикации. Принимать решение в такой ситуации все равно, что бросать монетку.

12

Netflix год спустя: успехи участников конкурса за год от старта, описание применяемых технологий и алгоритмов (Малоранговое приближение, Ближайшие соседи).

3

Generic Damping Functions for Propagating Importance in Link-Based Ranking Baeza-Yates, R.; Boldi, P.; Castillo, C.

Поисковый стартап Kosmix выпустил открытый исходный текст распределённой файловой системы KosmosFS, аналогичной Гугловой GFS. Отличие от такого же проекта Hadoop -- язык реализации, C++ (в отличие от Java в Hadoop).
...читать далее "KosmosFS"

2

В словаре русского языка для ispell от Александра Лебедева не учитываются варианты вроде дело -> дел и тело -> тел.

Для исправления ситуации в файлe russian.aff.koi для флага *K нужно расширить правило


[ВГДСТ] О > -О,-
до

[ВГДЛСТ] О > -О,-