V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Leon6868
V2EX  ›  问与答

说话人分割用什么模型比较好?

  •  
  •   Leon6868 · 195 天前 · 1105 次点击
    这是一个创建于 195 天前的主题,其中的信息可能已经有所发展或是发生改变。

    小规模会议场景(小于 10 人)下的说话人分割,希望能流式处理,请问什么模型延迟和准确性比较好呢?

    提前感谢大佬回复!

    (目前试过 funasr 的 cam++,分割效果不太好)

    12 条回复    2024-06-06 20:09:31 +08:00
    q0000001
        2
    q0000001  
       194 天前 via Android
    多嘴问问,funasr 可以流式识别说话人?
    BMPixel
        3
    BMPixel  
       194 天前
    我之前自己试了几个,WhisperX 效果是最好的,不过好像不能流式。
    Leon6868
        4
    Leon6868  
    OP
       194 天前
    @q0000001 #2 readme 中有 cam++
    Leon6868
        5
    Leon6868  
    OP
       194 天前
    @czfy #1 好文档,不过没怎么提到说话人分割
    q0000001
        6
    q0000001  
       194 天前
    @Leon6868 我也看到有,但是基本上都是非实时语音识别才有加载 cam++,看到 issue 里面说流式没有,所以一直没看到。
    能再问问你是用 paraformer-zh-streaming 这个,再加载 cam++吗?
    roding
        7
    roding  
       194 天前
    为什么要分割人😱
    Leon6868
        8
    Leon6868  
    OP
       194 天前
    @q0000001 #6 我描述得确实不太准确,当时是采用滑窗方式分割说话人的,类似 3s 历史+2s(未处理)这样(迫真流式)。我也没找到近期实时说话人识别/分割的工作,如果见到类似的工作欢迎多交流🙏
    q0000001
        9
    q0000001  
       193 天前 via iPhone
    @Leon6868 明白明白。
    没问题,最近都在搞这个,突然看到眼前一亮。哈哈。
    大概原理懂了。嗯嗯,多交流。
    Leon6868
        10
    Leon6868  
    OP
       178 天前
    @q0000001 #9 最近尝试了一个非常好的项目,sherpa onnx ,在 asr 和 说话人分割/识别 方面基本能满足我的需求,你可以试一下
    johnabyss
        11
    johnabyss  
       165 天前
    @Leon6868
    劳烦问一下,sherpa onnx 有说话人日志( speaker-diarization )的预训练模型么?我只找到了说话人确认的
    Leon6868
        12
    Leon6868  
    OP
       164 天前
    @johnabyss #11 vad speaker recognition 组合一下不就是了?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2959 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 14:18 · PVG 22:18 · LAX 06:18 · JFK 09:18
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.