Высокие слова

В закрытом загончике обсуждают работу сотрудников Яндекса, выполненную в рамках РОМИП:

Это ключевая публикация Яндекса в этом году. Можно считать, что Яндекс владеет технологией подавления заимствованного контента, т.е. сформированы предпосылки приоритета контента в поисковом продвижении.

Слишком высокие эпитеты для обычной обзорной статьи. Да, предложены новые методы, но, как отмечено немного ранее и в другом месте, эти алгоритмы решают только одну часть проблемы: когда один и тот же документ (с возможно небольшими модификациями) отдаётся по разным URL. Для случая злостного спамера, специально значительно коверкающего копируемые тексты, эти алгоритмы не работают, или работают много хуже.

Второй аспект: ну определит Яндекс, что два документа с разных серверов являются дублями друг друга, а дальше что ? У него же нет достоверного способа узнать первоисточник (кто автор), -- просто в технологиях HTTP и HTML (да собственно ни в каком более-менее широко используемом протоколе или формате файла) не предусмотрено гарантированного и подтверждаемого третьей стороной указания даты публикации. Принимать решение в такой ситуации все равно, что бросать монетку.

Высокие слова: 12 комментариев

  1. Макс

    Люблю почитать блог "Соноты" - приятно когда народ пытается писать чего не понимает. Заметки про языки программирования - песня, я ее друзьям иногда зачитываю, смеемся. А в этой заметке - РОМИП перепутали с RCDL, duplicate elimination c копипасте. Жгите дальше! Просто не сумел удержаться и оставил коммент:).

  2. Maxime

    Молодец, смешарик. Только смех без причины -- ...
    РОМИП проводится как подсекция RCDL, плюс в аннотации этой работы явно указано, что для тестирования использовалась коллекция РОМИП.

  3. itman@livejournal

    Все правильно, скорее всего, это было сделано для РОМИПа, а в статье говорится про "near duplicate detection", а не про "copypaste detection" 🙂

  4. Maxime

    Это не снимает вопроса, какой из двух "near duplicate" документов показывать в общем случае,

  5. Макс

    Да ну Леонид, о чем ты говоришь, зачем это РОМИП? Это нужно только большим и-нет поисковикам. Яндекс сделал это на данной коллекции, потому что делать статью на закрытой коллекции - моветон. Знаешь, Илья к этому достаточно трепетно относится.

    Максим, не обижайся, но читай внимательнее. Твое предложения по "boosting" в более свежем посте по этой статье не в тему. Проблема DE не в том, чтобы решить что 2 документа копии, а том как это сделать быстрее в нескольких миллиардах документов. Поэтому предложение "посчитать несколько похожестей" не проходит - в идеале не считать не одного для большинства и считать как можно локальнее.

  6. Maxime

    Макс, единственное, что здесь не в тему - это ваш менторский гонор.

    Ваша проблема в том, что, судя по всему, вы глубокий теоретик, - эта проблема касается не только больших поисковиков, но вообще любого, который сталкивается с проблемой нечетких дублей, все равно, из-за кривой архитектуры сайта, или из-за предумышленного копирования чужих статей в своем дизайне. И если вы заметили, в этой статье нет количественного сравнения методов по скорости работы, зато есть такое сравнение по F-мере (точносте и полноте) -- быстро считать на миллиардах не главное, главное делать это точно, полно и быстро.

  7. Макс

    Нашли теоретика.... Нет, я не теоретик и что такое DE для 10 миллиардов документов вижу ежедневно.

  8. Maxime

    Ну допустим младший помощник кремлевского дворника видит президента каждое утро...

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *