Высокие слова

Mike23 октября 200723 сентября 200912 комментариев

В закрытом загончике обсуждают работу сотрудников Яндекса, выполненную в рамках РОМИП:

Это ключевая публикация Яндекса в этом году. Можно считать, что Яндекс владеет технологией подавления заимствованного контента, т.е. сформированы предпосылки приоритета контента в поисковом продвижении.

Слишком высокие эпитеты для обычной обзорной статьи. Да, предложены новые методы, но, как отмечено немного ранее и в другом месте, эти алгоритмы решают только одну часть проблемы: когда один и тот же документ (с возможно небольшими модификациями) отдаётся по разным URL. Для случая злостного спамера, специально значительно коверкающего копируемые тексты, эти алгоритмы не работают, или работают много хуже.

Второй аспект: ну определит Яндекс, что два документа с разных серверов являются дублями друг друга, а дальше что ? У него же нет достоверного способа узнать первоисточник (кто автор), -- просто в технологиях HTTP и HTML (да собственно ни в каком более-менее широко используемом протоколе или формате файла) не предусмотрено гарантированного и подтверждаемого третьей стороной указания даты публикации. Принимать решение в такой ситуации все равно, что бросать монетку.

Высокие слова: 12 комментариев

Макс 24 октября 2007 в 9:17

Люблю почитать блог "Соноты" - приятно когда народ пытается писать чего не понимает. Заметки про языки программирования - песня, я ее друзьям иногда зачитываю, смеемся. А в этой заметке - РОМИП перепутали с RCDL, duplicate elimination c копипасте. Жгите дальше! Просто не сумел удержаться и оставил коммент:).
Maxime 24 октября 2007 в 10:54

Молодец, смешарик. Только смех без причины -- ...
РОМИП проводится как подсекция RCDL, плюс в аннотации этой работы явно указано, что для тестирования использовалась коллекция РОМИП.
itman@livejournal 24 октября 2007 в 18:56

Все правильно, скорее всего, это было сделано для РОМИПа, а в статье говорится про "near duplicate detection", а не про "copypaste detection" 🙂
Maxime 24 октября 2007 в 19:11

Это не снимает вопроса, какой из двух "near duplicate" документов показывать в общем случае,
Макс 28 октября 2007 в 9:32

Да ну Леонид, о чем ты говоришь, зачем это РОМИП? Это нужно только большим и-нет поисковикам. Яндекс сделал это на данной коллекции, потому что делать статью на закрытой коллекции - моветон. Знаешь, Илья к этому достаточно трепетно относится.

Максим, не обижайся, но читай внимательнее. Твое предложения по "boosting" в более свежем посте по этой статье не в тему. Проблема DE не в том, чтобы решить что 2 документа копии, а том как это сделать быстрее в нескольких миллиардах документов. Поэтому предложение "посчитать несколько похожестей" не проходит - в идеале не считать не одного для большинства и считать как можно локальнее.
Maxime 28 октября 2007 в 11:29

Макс, единственное, что здесь не в тему - это ваш менторский гонор.

Ваша проблема в том, что, судя по всему, вы глубокий теоретик, - эта проблема касается не только больших поисковиков, но вообще любого, который сталкивается с проблемой нечетких дублей, все равно, из-за кривой архитектуры сайта, или из-за предумышленного копирования чужих статей в своем дизайне. И если вы заметили, в этой статье нет количественного сравнения методов по скорости работы, зато есть такое сравнение по F-мере (точносте и полноте) -- быстро считать на миллиардах не главное, главное делать это точно, полно и быстро.
Макс 28 октября 2007 в 12:56

Нашли теоретика.... Нет, я не теоретик и что такое DE для 10 миллиардов документов вижу ежедневно.
Maxime 28 октября 2007 в 13:27

Ну допустим младший помощник кремлевского дворника видит президента каждое утро...

Высокие слова

Похожие записи:

Высокие слова: 12 комментариев

Добавить комментарий