V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
dzdh
V2EX  ›  PostgreSQL

有没有什么正在更新的词库可以给 jieba 或 zhparser 用的

  •  
  •   dzdh · 162 天前 · 838 次点击
    这是一个创建于 162 天前的主题,其中的信息可能已经有所发展或是发生改变。

    ps : 这俩还在更新吗..

    pg 的中文分词需求感觉蛮大的啊。哪里有好的社区可以求指导咩

    5 条回复    2021-06-29 15:14:24 +08:00
    ptsa
        1
    ptsa  
       162 天前
    更新不频繁。 应该都能用
    dzdh
        2
    dzdh  
    OP
       162 天前
    @ptsa 有没有啥好的分词词库啊。

    搜狗细胞词库转 txt ?
    MinQ
        3
    MinQ  
       162 天前
    https://ai.tencent.com/ailab/nlp/en/embedding.html
    可以把这里面的词抽出来作为词典,质量还是很高的
    dzdh
        4
    dzdh  
    OP
       162 天前
    @MinQ
    木有找到现成的库 需要自己 clone 源码自己训练么
    MinQ
        5
    MinQ  
       162 天前
    @dzdh 不需要,下载下来是一个训练好的文件,里面是词+对应的词向量的形式
    读到内存里(可能需要至少 16G 以上的内存),然后把词库提取出来给 jieba 用
    https://www.biaodianfu.com/tencent-word-embedding.html
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   3917 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 07:52 · PVG 15:52 · LAX 23:52 · JFK 02:52
    ♥ Do have faith in what you're doing.