V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
hello267015
V2EX  ›  程序员

苹果说激活 siri 的语音指令由“Hey Siri”换成“Siri”有很大的技术难度

  •  
  •   hello267015 · 2022-11-10 11:25:59 +08:00 · 6184 次点击
    这是一个创建于 752 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有懂这方面大佬给科普下吗

    这难在哪???

    CURD 码农表示不就是把激活的判断条件改一下吗 😂😂😂

    36 条回复    2022-11-11 21:17:08 +08:00
    god7d
        1
    god7d  
       2022-11-10 11:29:48 +08:00
    很显然不是啊,虽然我也不懂,但是你想一下条件越多肯定是越准确的,2 个变成一个会让难度有一个量级的提升吧
    huangqihong
        2
    huangqihong  
       2022-11-10 11:31:13 +08:00   ❤️ 1
    你这让我想起昨天和同学打电话,应该是说 crv ,平板的 siri 开启了。。。。。我一脸懵逼
    mxT52CRuqR6o5
        3
    mxT52CRuqR6o5  
       2022-11-10 11:33:38 +08:00   ❤️ 6
    你改短了之后,排除假阳 case 会更困难,就比如如何保证在说 seriously 的时候不触发 siri (说的快的时候中间的那个『儿』音就不一定能很清楚的发音出来,就会比较接近 siri )
    ospider
        4
    ospider  
       2022-11-10 11:39:28 +08:00   ❤️ 1
    「 Hey, Siri!」唤醒只需要判断是否说了两个词,而「 Siri!」需要判定是否是在唤醒 Siri ,还是提到了 Siri 。

    举个例子,小爱同学就没有判断「小爱同学」这四个字是否在唤醒她,所以在句中提到她的时候就会唤醒,相信有小爱音箱的都有经历。苹果要做到的应该是说话中间提到 Siri 不会唤醒 Siri ,只有目的是唤醒 Siri 才会唤醒。
    deanguqiang
        5
    deanguqiang  
       2022-11-10 11:40:39 +08:00   ❤️ 7
    Siri 的时间太短了。一般来为了做到很低的功耗,VAD 会做成多级唤醒:先检测有没有声音 -> 检测有没有人声 -> 检查是不是设定的唤醒词。有可能到达唤醒词这一阶段,HEY 已经丢掉或者不完整了。假如唤醒词只有 SIRI 那么成功率将大大降低。
    大部分的唤醒词都是有一定持续时间、多个音节的,比如 HEY SIRI 、小度小度、小爱同学、天猫精灵,是有原因的。
    janus77
        6
    janus77  
       2022-11-10 11:40:47 +08:00
    我的想法是 hey 这个词一般人不常说(只有在刚见面的时候会说一下,正常对话中完全不会说),所以 hey 这个词很适合被用来做标记词(日常说的频率少,发音也简单,和其发音相似的词也挺少,尤其是在一句话开头的时候)
    标记词用于唤起,可以同时保证唤起的成功率和低误伤率
    而现在标记词改成了 siri ,这些优点几乎全部没有了
    docx
        7
    docx  
       2022-11-10 11:56:05 +08:00 via iPhone
    误触发概率会变大吧
    newaccount
        8
    newaccount  
       2022-11-10 12:43:19 +08:00
    有没有可能 hey 这个发音在声音的波形上是一个很明显的尖峰...
    HeyWeGo
        9
    HeyWeGo  
       2022-11-10 12:46:14 +08:00
    给 siri 换个名字吧,比如说:pineapple
    gdfsjunjun
        10
    gdfsjunjun  
       2022-11-10 12:58:23 +08:00
    嘿 Siri 就三个字,长度足够了,就 Siri 我都怕误触,比如看视频有人介绍 Siri 怎样的时候,老是误触,嘿 Siri 就不会出现这样的问题,平时说话不太可能触发。

    反而小爱同学四个字过长,而且看视频总是触发,特别烦
    xingyuc
        11
    xingyuc  
       2022-11-10 13:03:00 +08:00
    @HeyWeGo 我觉得不如 applepen
    ShinomiyaKaguya
        12
    ShinomiyaKaguya  
       2022-11-10 13:08:55 +08:00 via iPhone
    最新测试版系统,已经不用喊 hey 了,直接 siri 就能唤醒
    bthulu
        13
    bthulu  
       2022-11-10 13:13:18 +08:00   ❤️ 1
    @gdfsjunjun 怎么可能会误触发. 已唤醒 siri 的情况下不重复唤醒不久解决了
    marcong95
        14
    marcong95  
       2022-11-10 13:38:26 +08:00
    楼上讨论 Hey 这个词本身的,友情提示一下,如果把 Siri 语言设置成粤语,唤醒词是「喂,Siri 」。所以 Hey 这个词的特征应该不是作为唤醒词的原因。
    Vtwoguest
        15
    Vtwoguest  
       2022-11-10 15:56:52 +08:00
    口令越短越难判定 最重要的是 Hey 不是 Hey 的这个词多特殊 而是我们日常交流很少说 Hey 误判几率很小
    cy1027
        16
    cy1027  
       2022-11-10 16:16:17 +08:00
    语音识别已经很成熟了,但是为什么还没有什么像样的语义识别,区别就在这里
    gdfsjunjun
        17
    gdfsjunjun  
       2022-11-10 16:17:20 +08:00
    不符合习惯,当你提到某个人的名字并不代表你在叫他。

    比如,说一声嘿,小爱。这就很明确你在叫他。

    但是,当你对某个人评价的时候,你虽然提到了名字,但并不是在叫他,甚至他不在场也行。

    比如,你讨论小爱同学人品怎样怎样,你根本就没在叫他这个人好吧,但是音箱就是回应了
    anonymous2351d00
        18
    anonymous2351d00  
       2022-11-10 16:21:16 +08:00   ❤️ 4
    改成 system call 吧
    okakuyang
        19
    okakuyang  
       2022-11-10 18:18:40 +08:00
    苹果都是用神经网络去做识别的。缩短了词,输入就少了很多信息。重新找一批实验者录音,训练模型,改进算法,检验效果。这一套流程要全部走一遍。
    ghs55kai
        20
    ghs55kai  
       2022-11-10 18:21:58 +08:00 via iPhone   ❤️ 1
    你比印度阿三还懂
    cyningxu
        21
    cyningxu  
       2022-11-10 18:26:24 +08:00
    个人感觉这个应该和误唤醒相关。hey siri 音节多便于识别且日常生活中较少使用,但 siri 音节少识别较难,且相较 hey siri 而言使用频率会高很多。比如“我感觉 siri 挺智能的”,但较少人会说“我感觉 hey siri 挺智能的”。如果仅是将==右边由“hey siri”改为“siri”,没有其他方面的提升,那这个使用体验会大打折扣。感觉苹果应该是在这方面下了很大的功夫,用以保证至少在他们的测试流程里,“hey siri”和“siri”的误唤醒率差不多。以上为个人见解,若有误望轻拍。
    admpubcom
        22
    admpubcom  
       2022-11-10 18:28:45 +08:00 via iPhone
    @bthulu cc @小爱音箱开发人员
    ajyz
        23
    ajyz  
       2022-11-10 18:38:30 +08:00 via iPhone
    音节越短,容错越低
    ThinkMan
        24
    ThinkMan  
       2022-11-10 18:40:07 +08:00
    之前在国内过 AI 语音行业。
    当时我们中文推荐的是 3-5 个字,2 个字坚决拒绝(主要是误唤醒率非常高)。4 个字算是最佳,能平衡唤醒率、和误唤醒率,且“ABCD”好过“ABAB”、“AABB”等类型唤醒词。
    当然手机上,除了做唤醒识别之外还会加声纹识别,以减少误唤醒。
    nightwitch
        25
    nightwitch  
       2022-11-10 19:15:25 +08:00 via Android
    在连续的数据里识别分析,难点不在于某个片段的识别准确率,难点在于从连续数据里找出片段的起始和结束。
    Iamsonny
        26
    Iamsonny  
       2022-11-10 19:21:47 +08:00
    唤醒词越短,技术难度越高,误唤醒率太高了。
    ixcode
        27
    ixcode  
       2022-11-10 23:02:51 +08:00
    只要还需要唤醒词,人工智障永远都是智障
    AOK123
        28
    AOK123  
       2022-11-10 23:21:12 +08:00
    所以谷歌还是明智很多,直接叫 Alexa ,个人感觉误判率比 Hey Siri 都低。。。
    HolliZod
        29
    HolliZod  
       2022-11-10 23:43:41 +08:00
    没那么简单的,大多数公司都只能实现四个音节,苹果三个音节已经独步很久了
    lbingl
        30
    lbingl  
       2022-11-11 02:56:55 +08:00 via Android
    @AOK123 Alexa 是亚马逊的,谷歌的也是 Hey Google
    yaoyao1128
        31
    yaoyao1128  
       2022-11-11 07:45:35 +08:00 via iPhone
    @AOK123
    @lbingl
    Alexa 是亚马逊,但是谷歌在不同地区的官方唤醒词分为 okey google 和 hey google 两种(甚至英语不同地区不同……),之后理论上都能用

    @marcong95 同意,并且韩语的唤醒是 siri 呀

    个人认为唤醒的问题是,以前本身是由语气词进行的主体判断。当 siri 这个词独自出现时的误唤醒概率因为一定需要语气词所以降低了。大概的逻辑就是碰到 siri 不说话,但是 siri 和固定的语气词在一起了那大概就是叫 siri 了。
    yytbob
        32
    yytbob  
       2022-11-11 08:59:18 +08:00
    别人提你名字的时候不一定是在叫你,也可能是在你别后谈论你。Hey Siri 可以排除这个情况。
    abvatous
        33
    abvatous  
       2022-11-11 09:47:57 +08:00
    主要是为了防止被误唤醒吧
    weizhen199
        34
    weizhen199  
       2022-11-11 10:36:44 +08:00   ❤️ 2
    Siri 很明显是个昵称嘛,叫 Siri 全名就行
    Speech Interpretation & Recognition Interface

    (逃
    laqow
        35
    laqow  
       2022-11-11 11:30:27 +08:00
    不外乎优化一下模型,就是懒得弄而已,以后编不下去了加个 if 就是个卖点
    dreamkuo
        36
    dreamkuo  
       2022-11-11 21:17:08 +08:00
    苹果可以唤醒+内容同时执行, 别的要先唤醒进入监听状态,然后再说内容
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2614 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 06:48 · PVG 14:48 · LAX 22:48 · JFK 01:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.