V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Yut
V2EX  ›  自然语言处理

使用 NLP 从书中提取各个角色的台词

  •  
  •   Yut · 2021-05-04 00:00:20 +08:00 via Android · 3704 次点击
    这是一个创建于 1328 天前的主题,其中的信息可能已经有所发展或是发生改变。

    身边有个富二代开了家有声读物的工作室,想用软件来替代人工分句,不知道大哥们有没有好想法。(或者愿意写一个就更好了,有偿,准确度高的话个把万没问题

    13 条回复    2023-06-06 15:48:42 +08:00
    xiangyuecn
        1
    xiangyuecn  
       2021-05-04 00:04:46 +08:00
    既然是富二代,那么给个 100 万报价,应该小意思吧😏 个把玩就不要写富二代这 3 个字了,应景
    Yut
        2
    Yut  
    OP
       2021-05-04 00:06:19 +08:00 via Android
    @xiangyuecn 那只能说还不够富吧。。。
    xiangyuecn
        3
    xiangyuecn  
       2021-05-04 00:07:48 +08:00
    @Yut 皮😂
    Yut
        4
    Yut  
    OP
       2021-05-04 00:10:04 +08:00 via Android
    @xiangyuecn 嗨,人家找我我要整论文没空,放到 v2 上看看有没有老哥愿意接吧没有就算了
    MakeItGreat
        5
    MakeItGreat  
       2021-05-04 00:10:24 +08:00 via Android
    经典情况:我很有钱唉,我很牛逼
    但是我给你钱的时候我就是扣扣嗖嗖
    Yut
        6
    Yut  
    OP
       2021-05-04 00:11:28 +08:00 via Android
    @MakeItGreat 人还是挺 generous 的,而且都找着周围朋友话放出来了到时候给少了怕不是抬不起头
    lithiumii
        7
    lithiumii  
       2021-05-04 00:14:47 +08:00 via Android
    标点符号规范的书是不是正则就够了?
    Yut
        8
    Yut  
    OP
       2021-05-04 00:19:00 +08:00 via Android
    @lithiumii 先期确实有这个想法,不过最终肯定还是上 NLP 的嘛
    Yut
        9
    Yut  
    OP
       2021-05-04 00:20:17 +08:00 via Android
    假如想接的话可以贴个相关的 repo 谢谢老哥们了
    privapps
        10
    privapps  
       2021-05-04 09:34:27 +08:00   ❤️ 1
    我看了看,说难不难,说容易不容易

    如果是标准书,用引号啥的,可以把对话提出来,这个容易

    不容易的是怎么把人物对应上,简单方法是找对话前后面句子 , 用结巴 或者 https://github.com/baidu/lac,把名词提出来,然后对应。

    但问题是有的对话是没有人物的,这就需要 自己写一些 规则,比如 两人对话,一定是一人一句等等,然后用 machine learning, tenserflow 去学习,然后提高准确度。简单来说就是用 ML 做 classification, 这个就有点玄学的味道了

    我估计做出来容易,能够有 60%或以上的准确率,但提高准确率蛮难的
    rpman
        11
    rpman  
       2021-07-30 11:25:20 +08:00
    我司做 TTS 的,也有面对有声读物的相关业务
    我们有说话人判别和指代消解相关技术,要不要考虑对接一下,钱到位了都好说
    Yut
        12
    Yut  
    OP
       2021-08-01 10:23:40 +08:00 via Android
    @rpman 老哥来晚了呀,他们已经做的差不多开始用了,以后加入他们想 scale 的话我再来找你
    TransAM
        13
    TransAM  
       2023-06-06 15:48:42 +08:00 via Android
    一般来说一个人的台词占一整段,为啥还要分句?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2444 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 15:47 · PVG 23:47 · LAX 07:47 · JFK 10:47
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.