V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
chinvo
V2EX  ›  TensorFlow

自然语言处理,分词问题

  •  
  •   chinvo · 2019-09-11 14:27:16 +08:00 via iPhone · 4328 次点击
    这是一个创建于 772 天前的主题,其中的信息可能已经有所发展或是发生改变。

    今天在 GDD 听了 tf.text 主题演讲,演讲者在 demo 中使用 Unicode 分字,把中文句子分成单字。

    而我和同事在过去多用词典法分词。

    想要讨论下分字和词典法分词两个效果有什么差异,结果一直没能堵到演讲者 😂。

    不知道各位在应用过程中有没有对这方面做过评估。

    6 条回复    2020-10-21 12:48:41 +08:00
    chinvo
        1
    chinvo   2019-09-11 16:06:18 +08:00 via iPhone
    🤪
    shikimoon
        2
    shikimoon   2019-09-11 16:28:07 +08:00
    bert 一把梭
    chinvo
        3
    chinvo   2019-09-11 17:19:07 +08:00 via iPhone
    @shikimoon #2 问题就在于 bert 预处理用的是 Unicode 分字,就比较想了解分字和分词对最终结果有啥不同影响
    capo
        4
    capo   2019-09-11 23:58:10 +08:00   ❤️ 1
    场景 模型的不同都会使分词方式有不同的效果 试一试就知道了
    shikimoon
        5
    shikimoon   2019-09-12 10:52:44 +08:00   ❤️ 1
    @chinvo 哈工大有篇 paper 是用分词的,不同 task 相比分字效果不同
    shm7
        6
    shm7   2020-10-21 12:48:41 +08:00   ❤️ 1
    这问题过去有一年了,也许 lz 已经变成一个入门选手。入门选手都是知道怎么操作的了。分词不分词,看什么场景,比如你做 textrank,不分词就不能用。如果是用于深度学习的输入,又分使用场景;比如分类,可分可不分,分了一般效果略好;再比如做实体序列标注,你要是分了,加入分词边界和实体边界 不贴合你咋整?只要做过几个简单任务,有点思考,这些根本不会有。没做过的,纯粹看着玩。我觉得没比较了解这个问题。
    关于   ·   帮助文档   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2169 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 05:06 · PVG 13:06 · LAX 22:06 · JFK 01:06
    ♥ Do have faith in what you're doing.