В закрытом загончике обсуждают работу сотрудников Яндекса, выполненную в рамках РОМИП:
Это ключевая публикация Яндекса в этом году. Можно считать, что Яндекс владеет технологией подавления заимствованного контента, т.е. сформированы предпосылки приоритета контента в поисковом продвижении.
Слишком высокие эпитеты для обычной обзорной статьи. Да, предложены новые методы, но, как отмечено немного ранее и в другом месте, эти алгоритмы решают только одну часть проблемы: когда один и тот же документ (с возможно небольшими модификациями) отдаётся по разным URL. Для случая злостного спамера, специально значительно коверкающего копируемые тексты, эти алгоритмы не работают, или работают много хуже.
Второй аспект: ну определит Яндекс, что два документа с разных серверов являются дублями друг друга, а дальше что ? У него же нет достоверного способа узнать первоисточник (кто автор), -- просто в технологиях HTTP и HTML (да собственно ни в каком более-менее широко используемом протоколе или формате файла) не предусмотрено гарантированного и подтверждаемого третьей стороной указания даты публикации. Принимать решение в такой ситуации все равно, что бросать монетку.
Люблю почитать блог "Соноты" - приятно когда народ пытается писать чего не понимает. Заметки про языки программирования - песня, я ее друзьям иногда зачитываю, смеемся. А в этой заметке - РОМИП перепутали с RCDL, duplicate elimination c копипасте. Жгите дальше! Просто не сумел удержаться и оставил коммент:).
Молодец, смешарик. Только смех без причины -- ...
РОМИП проводится как подсекция RCDL, плюс в аннотации этой работы явно указано, что для тестирования использовалась коллекция РОМИП.
Все правильно, скорее всего, это было сделано для РОМИПа, а в статье говорится про "near duplicate detection", а не про "copypaste detection" 🙂
Это не снимает вопроса, какой из двух "near duplicate" документов показывать в общем случае,
Да ну Леонид, о чем ты говоришь, зачем это РОМИП? Это нужно только большим и-нет поисковикам. Яндекс сделал это на данной коллекции, потому что делать статью на закрытой коллекции - моветон. Знаешь, Илья к этому достаточно трепетно относится.
Максим, не обижайся, но читай внимательнее. Твое предложения по "boosting" в более свежем посте по этой статье не в тему. Проблема DE не в том, чтобы решить что 2 документа копии, а том как это сделать быстрее в нескольких миллиардах документов. Поэтому предложение "посчитать несколько похожестей" не проходит - в идеале не считать не одного для большинства и считать как можно локальнее.
Макс, единственное, что здесь не в тему - это ваш менторский гонор.
Ваша проблема в том, что, судя по всему, вы глубокий теоретик, - эта проблема касается не только больших поисковиков, но вообще любого, который сталкивается с проблемой нечетких дублей, все равно, из-за кривой архитектуры сайта, или из-за предумышленного копирования чужих статей в своем дизайне. И если вы заметили, в этой статье нет количественного сравнения методов по скорости работы, зато есть такое сравнение по F-мере (точносте и полноте) -- быстро считать на миллиардах не главное, главное делать это точно, полно и быстро.
Нашли теоретика.... Нет, я не теоретик и что такое DE для 10 миллиардов документов вижу ежедневно.
Ну допустим младший помощник кремлевского дворника видит президента каждое утро...