Tawn
Massive text de duplication based on simhash algorithm Massive text de duplication based on simhash algorithm
SimHash是一种局部敏感hash,它也是Google公司进行海量网页去重使用的主要算法,本文利用simhash来解决海量文本去重实例问题。