未分類 25 5 月 2020 各位师傅, elasticsearch 如何进行大量数据的去重? 各位师傅, elasticsearch 如何进行大量数据的去重? 資深大佬 : zhangxu128 3 现在的数据量是 1.5kw 左右,内容是 20 个以内的汉字,使用的 ik-skart 分词器。 大佬有話說 (6) 資深大佬 : bolide2005 可以用 collapse 合并,不过要注意这个时候返回的 total_hit 仍旧是不合并的数目,如果要翻页的话那就配合 aggs/cardinality 来计算合并后的数量。还有 collapse 只能应用在 keyword 和 num 类型的字段上。 資深大佬 : zxc12300123 你这是要根据自然语言相似度去重吧 資深大佬 : pmispig 看你是一次性的还是周期的长期的要是一次性的话,感觉可以分页排序查询,在查询逻辑里做判断,然后删除重复的 id 文档 主 資深大佬 : zhangxu128 @zxc12300123 是的 存储的数据类型是 TEXT 主 資深大佬 : zhangxu128 @bolide2005 好 我去研究一下 資深大佬 : zxc12300123 @zhangxu128 余弦定理去重后再放进 ES