跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 各位师傅, elasticsearch 如何进行大量数据的去重?
未分類
25 5 月 2020

各位师傅, elasticsearch 如何进行大量数据的去重?

各位师傅, elasticsearch 如何进行大量数据的去重?

資深大佬 : zhangxu128 3

现在的数据量是 1.5kw 左右,内容是 20 个以内的汉字,使用的 ik-skart 分词器。
大佬有話說 (6)

  • 資深大佬 : bolide2005

    可以用 collapse 合并,不过要注意这个时候返回的 total_hit 仍旧是不合并的数目,如果要翻页的话那就配合 aggs/cardinality 来计算合并后的数量。还有 collapse 只能应用在 keyword 和 num 类型的字段上。

  • 資深大佬 : zxc12300123

    你这是要根据自然语言相似度去重吧

  • 資深大佬 : pmispig

    看你是一次性的还是周期的长期的
    要是一次性的话,感觉可以分页排序查询,在查询逻辑里做判断,然后删除重复的 id 文档

  • 主 資深大佬 : zhangxu128

    @zxc12300123 是的 存储的数据类型是 TEXT

  • 主 資深大佬 : zhangxu128

    @bolide2005 好 我去研究一下

  • 資深大佬 : zxc12300123

    @zhangxu128 余弦定理去重后再放进 ES

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具