有没有将近似的 hash 认为是相同 hash 的 hashset?
資深大佬 : LeeReamond 18
如题,十万张图片查重,每个图片生成一个 100 位的 hash 。
想要实现的效果是设计一个阈值,比如 100 位里 hamming distance 小于 10 的就认为是同一张图。
新建一个 hashset ,不往里面添加重复的 hash ,相似的认为是同一个。
十万的数量级不是很大,直接遍历的话也不会算很久,但是类似的需求有什么算法可以实现不做多余运算吗?
大佬有話說 (39)