Возвращаясь к сравнительному анализу методов определения нечетких дубликатов для Web-документов, удивительно, как имея 12 различных методов, авторы не додумались до супер-метода, когда все эти 12 методов "голосуют", т.е. пара документов считается дубликатами, если таковыми их посчитали 3 и более методов из описанных 12. Вместо 3 можно брать любое число и смотреть как меняется точность и полнота.
Вместо всех 12 методов можно взять методы с наименьшей вычислительной сложностью и посмотреть, сможет ли их "голосование" превзойти более ресурсоемкие методы.