V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zhangxu128
V2EX  ›  Elasticsearch

各位师傅, elasticsearch 如何进行大量数据的去重?

  •  
  •   zhangxu128 · 2020-05-22 11:27:59 +08:00 · 2713 次点击
    这是一个创建于 989 天前的主题,其中的信息可能已经有所发展或是发生改变。
    现在的数据量是 1.5kw 左右,内容是 20 个以内的汉字,使用的 ik-skart 分词器。
    8 条回复    2023-01-31 10:01:59 +08:00
    bolide2005
        1
    bolide2005  
       2020-05-22 11:33:23 +08:00   ❤️ 1
    可以用 collapse 合并,不过要注意这个时候返回的 total_hit 仍旧是不合并的数目,如果要翻页的话那就配合 aggs/cardinality 来计算合并后的数量。还有 collapse 只能应用在 keyword 和 num 类型的字段上。
    zxc12300123
        2
    zxc12300123  
       2020-05-22 15:06:15 +08:00
    你这是要根据自然语言相似度去重吧
    pmispig
        3
    pmispig  
       2020-05-22 15:29:11 +08:00
    看你是一次性的还是周期的长期的
    要是一次性的话,感觉可以分页排序查询,在查询逻辑里做判断,然后删除重复的 id 文档
    zhangxu128
        4
    zhangxu128  
    OP
       2020-05-22 15:58:56 +08:00
    @zxc12300123 是的 存储的数据类型是 TEXT
    zhangxu128
        5
    zhangxu128  
    OP
       2020-05-22 15:59:04 +08:00
    @bolide2005 好 我去研究一下
    zxc12300123
        6
    zxc12300123  
       2020-05-22 22:39:25 +08:00 via iPhone
    @zhangxu128 余弦定理去重后再放进 ES
    Nostalgia
        7
    Nostalgia  
       6 天前
    @bolide2005 老哥,问下现在( 2023.01 )有更方便的获取 collapse 合并结果数目了么?现在有这个需求,但上面的方法有点儿丑陋呀
    bolide2005
        8
    bolide2005  
       5 天前   ❤️ 1
    @Nostalgia #7 有几年没有关注这块了,不好意思,没有更新的消息能给到你
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   实用小工具   ·   1763 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 38ms · UTC 00:17 · PVG 08:17 · LAX 16:17 · JFK 19:17
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.