Google I/O sessions. В частности Underneath the Covers at Google: Current Systems and Future Directions.
Раздел: Technologies/Algorithms
Труды TREC 2007
В свободной доступ выложены труды TREC 2007.
Cluster Computing and MapReduce
Цикл из пяти лекций Google: Cluster Computing and MapReduce.
TREC-2007: genomics track
Стали доступны некоторые материалы TREC-2007, genomics track:
- Обзор genomics track 2007
- Презентация Illinois Institute of Technology: IIT TREC-2007 Genomics Track: Using Concept-based Semantics in Context for Genomics Literature Passage Retrieval.
- Презентация National Library of Medicine: Combining resources to find answers to biomedical questions.
- Презентация University of Amsterdam: Bootstrapping Language Associated with Biomedical Entities.
- Презентация University of Illinois at Chicago: UIC at TREC 2007: Genomics Track.
- Презентация University of Illinois at Champaign-Urbana: Language Models for Genomics Information Retrieval.
Полностью материалы TREC-2007 появятся в публичном доступе в начале 2008 года.
Супер-метод
Возвращаясь к сравнительному анализу методов определения нечетких дубликатов для Web-документов, удивительно, как имея 12 различных методов, авторы не додумались до супер-метода, когда все эти 12 методов "голосуют", т.е. пара документов считается дубликатами, если таковыми их посчитали 3 и более методов из описанных 12. Вместо 3 можно брать любое число и смотреть как меняется точность и полнота.
Вместо всех 12 методов можно взять методы с наименьшей вычислительной сложностью и посмотреть, сможет ли их "голосование" превзойти более ресурсоемкие методы.
Высокие слова
В закрытом загончике обсуждают работу сотрудников Яндекса, выполненную в рамках РОМИП:
Это ключевая публикация Яндекса в этом году. Можно считать, что Яндекс владеет технологией подавления заимствованного контента, т.е. сформированы предпосылки приоритета контента в поисковом продвижении.
Слишком высокие эпитеты для обычной обзорной статьи. Да, предложены новые методы, но, как отмечено немного ранее и в другом месте, эти алгоритмы решают только одну часть проблемы: когда один и тот же документ (с возможно небольшими модификациями) отдаётся по разным URL. Для случая злостного спамера, специально значительно коверкающего копируемые тексты, эти алгоритмы не работают, или работают много хуже.
Второй аспект: ну определит Яндекс, что два документа с разных серверов являются дублями друг друга, а дальше что ? У него же нет достоверного способа узнать первоисточник (кто автор), -- просто в технологиях HTTP и HTML (да собственно ни в каком более-менее широко используемом протоколе или формате файла) не предусмотрено гарантированного и подтверждаемого третьей стороной указания даты публикации. Принимать решение в такой ситуации все равно, что бросать монетку.
Netflix год спустя
Netflix год спустя: успехи участников конкурса за год от старта, описание применяемых технологий и алгоритмов (Малоранговое приближение, Ближайшие соседи).
Функции затухания важности
KosmosFS
Поисковый стартап Kosmix выпустил открытый исходный текст распределённой файловой системы KosmosFS, аналогичной Гугловой GFS. Отличие от такого же проекта Hadoop -- язык реализации, C++ (в отличие от Java в Hadoop).
...читать далее "KosmosFS"
Дело … ; … тел
В словаре русского языка для ispell от Александра Лебедева не учитываются варианты вроде дело -> дел и тело -> тел.
Для исправления ситуации в файлe russian.aff.koi для флага *K нужно расширить правило
[ВГДСТ] О > -О,-
до
[ВГДЛСТ] О > -О,-