Перейти к содержимому

Высокие слова

В закрытом загончике обсуждают работу сотрудников Яндекса, выполненную в рамках РОМИП:

Это ключевая публикация Яндекса в этом году. Можно считать, что Яндекс владеет технологией подавления заимствованного контента, т.е. сформированы предпосылки приоритета контента в поисковом продвижении.

Слишком высокие эпитеты для обычной обзорной статьи. Да, предложены новые методы, но, как отмечено немного ранее и в другом месте, эти алгоритмы решают только одну часть проблемы: когда один и тот же документ (с возможно небольшими модификациями) отдаётся по разным URL. Для случая злостного спамера, специально значительно коверкающего копируемые тексты, эти алгоритмы не работают, или работают много хуже.

Второй аспект: ну определит Яндекс, что два документа с разных серверов являются дублями друг друга, а дальше что ? У него же нет достоверного способа узнать первоисточник (кто автор), -- просто в технологиях HTTP и HTML (да собственно ни в каком более-менее широко используемом протоколе или формате файла) не предусмотрено гарантированного и подтверждаемого третьей стороной указания даты публикации. Принимать решение в такой ситуации все равно, что бросать монетку.

Высокие слова: 12 комментариев

  1. Макс

    Люблю почитать блог "Соноты" - приятно когда народ пытается писать чего не понимает. Заметки про языки программирования - песня, я ее друзьям иногда зачитываю, смеемся. А в этой заметке - РОМИП перепутали с RCDL, duplicate elimination c копипасте. Жгите дальше! Просто не сумел удержаться и оставил коммент:).

  2. Maxime

    Молодец, смешарик. Только смех без причины -- ...
    РОМИП проводится как подсекция RCDL, плюс в аннотации этой работы явно указано, что для тестирования использовалась коллекция РОМИП.

  3. itman@livejournal

    Все правильно, скорее всего, это было сделано для РОМИПа, а в статье говорится про "near duplicate detection", а не про "copypaste detection" 🙂

  4. Maxime

    Это не снимает вопроса, какой из двух "near duplicate" документов показывать в общем случае,

  5. Макс

    Да ну Леонид, о чем ты говоришь, зачем это РОМИП? Это нужно только большим и-нет поисковикам. Яндекс сделал это на данной коллекции, потому что делать статью на закрытой коллекции - моветон. Знаешь, Илья к этому достаточно трепетно относится.

    Максим, не обижайся, но читай внимательнее. Твое предложения по "boosting" в более свежем посте по этой статье не в тему. Проблема DE не в том, чтобы решить что 2 документа копии, а том как это сделать быстрее в нескольких миллиардах документов. Поэтому предложение "посчитать несколько похожестей" не проходит - в идеале не считать не одного для большинства и считать как можно локальнее.

  6. Maxime

    Макс, единственное, что здесь не в тему - это ваш менторский гонор.

    Ваша проблема в том, что, судя по всему, вы глубокий теоретик, - эта проблема касается не только больших поисковиков, но вообще любого, который сталкивается с проблемой нечетких дублей, все равно, из-за кривой архитектуры сайта, или из-за предумышленного копирования чужих статей в своем дизайне. И если вы заметили, в этой статье нет количественного сравнения методов по скорости работы, зато есть такое сравнение по F-мере (точносте и полноте) -- быстро считать на миллиардах не главное, главное делать это точно, полно и быстро.

  7. Макс

    Нашли теоретика.... Нет, я не теоретик и что такое DE для 10 миллиардов документов вижу ежедневно.

  8. Maxime

    Ну допустим младший помощник кремлевского дворника видит президента каждое утро...

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *