Я стараюсь попытаться реализовать мини-хакинг, чтобы найти дубликат контента. http://blog.cluster-text.com/tag/minhash/ имеет неплохую запись, но есть вопрос о том, сколько алгоритмов хэширования вам нужно пробегать по черепице в документе, чтобы получить разумные результаты.
В блоге выше упоминалось что-то вроде 200 алгоритмов хэширования. http://blogs.msdn.com/b/spt/archive/2008/06/10/set-similarity-and-min-hash.aspx перечисляет 100 по умолчанию.
Очевидно, есть увеличение точности по мере увеличения количества хешей, но сколько хеш-функций является разумным?
Процитировать в блоге
Трудно получить панель ошибок по нашей оценке сходства меньше [7%] из-за того, что статистические баги ошибок шкала выборочных значений - для сокращения полосы ошибок в два раза нам понадобится четыре в несколько раз.
Означает ли это, что это означает, что уменьшение количества хэшей до примерно 12 (200/4/4) приведет к ошибке в 28% (7 * 2 * 2)?