V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
tux
V2EX  ›  问与答

AI 吹的这么邪乎,为什么自动翻译还跟翔一样?

  •  1
     
  •   tux · 2017-12-11 17:16:54 +08:00 · 10474 次点击
    这是一个创建于 2570 天前的主题,其中的信息可能已经有所发展或是发生改变。
    RT,那些个猛吹 AI 的,各种场景吹上天了都,但自动翻译不难吧?大数据有的是吧?那为什么自动翻译还是这么辣鸡?
    不说语音识别翻译,单就是文字翻译也不行啊,演示跟实际生活场景差了 10 万 8000 里
    104 条回复    2024-03-14 09:56:18 +08:00
    1  2  
    huigeer
        1
    huigeer  
       2017-12-11 17:24:36 +08:00
    一楼给 v2,坐等喷子抵达战场
    FFLY
        2
    FFLY  
       2017-12-11 17:28:08 +08:00   ❤️ 13
    因为 AI 做得好的公司,母语都不是中文
    vrex
        3
    vrex  
       2017-12-11 17:33:01 +08:00
    没钱
    qiayue
        4
    qiayue  
       2017-12-11 17:35:51 +08:00
    因为语言比围棋更复杂
    loading
        5
    loading  
       2017-12-11 17:38:43 +08:00
    人工 x 智能


    目前这些都是预先设置好的场景而已,都是人工设定的。
    takato
        6
    takato  
       2017-12-11 17:42:37 +08:00   ❤️ 1
    从语言学来讲,中文本身就是一种信息量很少的语言。。。熵比较高
    clino
        7
    clino  
       2017-12-11 17:46:01 +08:00   ❤️ 1
    我觉得 youtube 的自动翻译的英文字幕很赞
    clino
        8
    clino  
       2017-12-11 17:46:30 +08:00   ❤️ 1
    #7 啊,搞错了,那个不是翻译,而是语音识别...
    hxhc
        9
    hxhc  
       2017-12-11 17:48:28 +08:00 via Android
    @clino 然而感觉也就英语识别得好一点,也当然可能是我懂的语言太少了😂
    loading
        10
    loading  
       2017-12-11 17:50:09 +08:00
    讯飞,超强啊
    qianbiTH
        11
    qianbiTH  
       2017-12-11 17:52:12 +08:00 via Android
    没钱没动力
    jjianwen68
        12
    jjianwen68  
       2017-12-11 17:54:34 +08:00
    不是说 youtube 自动翻译的字母很赞吗
    rogwan
        13
    rogwan  
       2017-12-11 18:13:43 +08:00 via Android   ❤️ 7
    “你什么意思?”

    AI 怎么能分辨我是在问询,还是要打人。
    takato
        14
    takato  
       2017-12-11 18:17:23 +08:00   ❤️ 2
    @rogwan 对的,所以中文并不是一种特别适合“沟通”的语言,更像是一种用来“隔离”、“加密”的语言。
    paradoxs
        15
    paradoxs  
       2017-12-11 18:29:25 +08:00 via iPhone
    市面上的都是伪 AI,等于不断的 if else ……(求轻喷)
    yearliny
        16
    yearliny  
       2017-12-11 18:48:14 +08:00 via Android
    @rogwan 单句话对人来说也不能理解,除非是带有语气的语音。若是有上下文的话,语境的判断也正是人工智能需要学习的,这个真的是很复杂。
    Artists
        17
    Artists  
       2017-12-11 18:50:45 +08:00
    @yearliny #16 通过传感器学习面部神经表情应该也可以。(没接触过机器学习,只是我的主观想象)
    tvallday
        18
    tvallday  
       2017-12-11 18:53:15 +08:00
    吹什么不要紧,关键是怎么吹,二十多年前孙正义靠卖自动翻译机给夏普就赚了人生第一桶金,尽管现在自动翻译机还是跟翔一样。区别在于有人发了大财,有人天天在想为什么。
    rogwan
        19
    rogwan  
       2017-12-11 18:53:24 +08:00 via Android
    @yearliny 是的,指的就是语言的多义比较复杂。既有语气,还有语境,既有明义,还有潜台词。
    yearliny
        20
    yearliny  
       2017-12-11 18:56:07 +08:00 via Android
    @Artists You're right.还可以通过动作来判断,当人工智能不懂了,还能找个路人问一问来实现自我学习。
    terrywater
        21
    terrywater  
       2017-12-11 18:56:13 +08:00
    @rogwan 分析出来,才是智能啊。只能说目前阶段,还不够智能。
    mooncakejs
        22
    mooncakejs  
       2017-12-11 18:57:09 +08:00 via iPhone
    @takato 中文适合阅读。
    forkon
        23
    forkon  
       2017-12-11 19:04:00 +08:00
    同感 自动翻译还有很长的路要走
    takato
        24
    takato  
       2017-12-11 19:14:39 +08:00
    @mooncakejs 并不容易,因为中文容易读出”歧义“。周围有不少人跟我反馈过这个问题,说他们更喜欢英文阅读,因为能精准地理解一些概念,但我不知道是不是个别现象。不过歧义性高这个东西还是很要命的,首先它就和逻辑体系不太兼容。现代中国很少诞生哲学家和大科学家,一方面和中文的这个特性有一定相关性。
    billgreen1
        25
    billgreen1  
       2017-12-11 19:17:17 +08:00
    @takato 熵比较高,信息量大
    mooncakejs
        26
    mooncakejs  
       2017-12-11 19:20:28 +08:00 via iPhone
    @takato 更喜欢读英文?除了一些专业词汇,不好翻译,其它没见过。 表意的语言天生更好阅读。书面语中文歧义不多,信息量大,读起来效率更高。 遇到生词不用查字典也能意会。
    bucky
        27
    bucky  
       2017-12-11 19:23:07 +08:00
    @rogwan 你什么意思翻译成你什么意思就行了呀
    rogwan
        28
    rogwan  
       2017-12-11 19:28:05 +08:00 via Android
    中文是口头表达里最高效的语言(直接和英语对比),音节少,信息携带量大。所以我们背诵 99 乘法表天下无敌呀。弊端就是换成机器编码就没优势了,比英语占用的字节数多,逻辑严谨不如英语,导致中文的语音助手比英文弱太多了。
    livc
        29
    livc  
       2017-12-11 19:42:13 +08:00
    拿出 case 来对比啊,这么耍嘴皮子有什么用
    hanqian
        30
    hanqian  
       2017-12-11 19:47:08 +08:00
    Google 翻译质量已经挺高了啊,进步极大
    northisland
        31
    northisland  
       2017-12-11 19:50:00 +08:00
    @rogwan 是这样,中文表达鸡毛蒜皮的事情,你不考虑对面能不能看懂,比的确比英文字节少。

    但是,要是表达精确含义,尤其是学术上的,中文就虾米了
    northisland
        32
    northisland  
       2017-12-11 20:05:31 +08:00
    比英语占用的字节数多

    vs

    expressive
    SuperMild
        33
    SuperMild  
       2017-12-11 20:06:33 +08:00
    中文容易有歧义,主要是现代汉语的问题,重要原因之一是废除了很多虚词。半文言利用虚词和一些固定的句型,表达比现代汉语精准很多。虚词可以帮助明确词与词之间的关系,而固定句型可以帮助厘清从句与从句之间的关系。
    jadec0der
        34
    jadec0der  
       2017-12-11 20:29:38 +08:00
    跟翔一样是什么意思?你网上随便找一篇文章,贴进 Google 翻译里都能翻译的七七八八的,至少能看懂主题,你交给一个学习了六年英语的小学生翻译,看看能翻译出什么来?
    不是非要达到六级的水平才叫凑合吧?
    Kilerd
        35
    Kilerd  
       2017-12-11 21:00:58 +08:00
    你不是这个领域的,那你是怎么得出 “自动翻译不难吧” 这个结论的??
    hebeiround
        36
    hebeiround  
       2017-12-11 21:10:52 +08:00
    私以为中文讲东西就是讲不清楚。
    codecrash
        37
    codecrash  
       2017-12-11 21:42:26 +08:00 via Android
    因为人们还不知道智能到底是个什么东西呢
    TimePPT
        38
    TimePPT  
       2017-12-11 21:59:24 +08:00 via iPhone
    其实现在 AI 技术做的最突出的是 CV 领域,语音识别也只是在单语言环境接近或者部分指标超过人类平均水平。NLP 相关的都差的远
    TimePPT
        39
    TimePPT  
       2017-12-11 22:01:37 +08:00 via iPhone
    akira
        40
    akira  
       2017-12-11 22:04:08 +08:00
    自动翻译 是真的难。 如果你觉得简单的话 可以试试
    Quaintjade
        41
    Quaintjade  
       2017-12-11 22:19:31 +08:00
    Google 翻译对于经济金融领域的新闻效果奇佳,可能因为比较八股。对于其他领域的文字就一般般了。
    wodesuck
        42
    wodesuck  
       2017-12-11 22:43:26 +08:00
    先问是不是,再问为什么
    freewarcraft
        43
    freewarcraft  
       2017-12-11 22:48:32 +08:00
    我感觉现在机翻还凑合啊,当然也要看具体翻译内容
    记得以前下载过一部新出的电影,开始都是比较简单的对话,然后我看了大概好几分钟才发觉字幕是机翻。。。因为后面话一多就露馅了
    takato
        44
    takato  
       2017-12-12 00:22:29 +08:00
    @billgreen1 熵高了就都是 Noise 了:)中文更接近 random noise 我可能是比较赞同的。

    @mooncakejs 接触时间多了,极有可能大脑会产生和语言相近的拓扑结构。。来更高效地翻译语句。并不是语言本身所具有的优势。
    这部分可参考一部分 homology
    :)
    YvesX
        45
    YvesX  
       2017-12-12 00:24:48 +08:00
    自然语言处理本来就比较难
    ck65
        46
    ck65  
       2017-12-12 01:15:57 +08:00
    吹 AI 的和做 Linguistics 的不大可能是一拨人。
    feather12315
        47
    feather12315  
       2017-12-12 01:19:43 +08:00 via Android
    @SuperMild #33 并不觉得英文能好到哪里去,英文中一溜从句下来也不明所以。 还有,在高三,中文的这种句子叫做病句…
    ra1983
        48
    ra1983  
       2017-12-12 01:40:06 +08:00 via iPhone
    楼主的帖子就是一个很好的例子
    不太上网的人都不能理解什么是“翔”,为什么把 shit 叫做“翔”。你还指望机器理解这种不规范,所谓的网络热词?
    chengluyu
        49
    chengluyu  
       2017-12-12 01:40:14 +08:00
    楼主需要上一门模式识别 /机器学习 /人工智能课……
    muziki
        50
    muziki  
       2017-12-12 01:42:33 +08:00 via iPhone
    @ra1983 拿网络热词举例也是醉了……然而这些机器翻译连书面材料翻译都烂到爆
    yexiaoxing
        51
    yexiaoxing  
       2017-12-12 02:00:33 +08:00
    moroumo
        52
    moroumo  
       2017-12-12 02:07:48 +08:00
    A:B,走,看看我女票漂亮不?
    B:我去!我不去!

    Google 翻译:
    A: B, go, look at my female ticket is not beautiful?
    B: I'm going! I dont go!

    请问 B 是去还是不去?
    Tardis0127
        53
    Tardis0127  
       2017-12-12 02:11:51 +08:00
    已经进步很多了
    语义, 语境
    语言涉及到很多东西, 属于强人工智能范畴, 弱人工智能只能无限趋近, 无法达到
    ytterbium
        54
    ytterbium  
       2017-12-12 02:32:39 +08:00 via Android
    翻译相比十年前已经好很多了,ai 吹的是未来
    gyao
        55
    gyao  
       2017-12-12 03:08:26 +08:00
    因为没有翻译良好的训练数据
    580a388da131
        56
    580a388da131  
       2017-12-12 03:54:47 +08:00
    貌似他们业内谈论的人工智能和科幻电影里表现的人工智能不是一回事。
    vegito2002
        57
    vegito2002  
       2017-12-12 03:56:22 +08:00
    经济水平发展的那么好, 为什么我还是买不起航母
    taresky
        58
    taresky  
       2017-12-12 05:05:00 +08:00 via iPhone
    我记得 YouTube 的其他语言翻译,是人工做的吧?
    sadscv
        59
    sadscv  
       2017-12-12 07:02:20 +08:00 via Android
    首先,目标函数是否足够好,这都存在很大的疑问,机器翻译目前常用的指标是 BLUE 以及它的一系列小改动,但是我们很难直接就把高 bleu 和翻译精准划等号。就像要电脑画一副美的图,连美的定义是什么我们都无法精确的表达,何谈优化模型使生成的画最美呢?
    mohoumk2
        60
    mohoumk2  
       2017-12-12 08:27:37 +08:00 via Android
    老四说老三的老二老大了?
    tankb52
        61
    tankb52  
       2017-12-12 08:34:48 +08:00
    我对翻译不报什么期望,能分析笔迹自动生成字体就好了。
    askfilm
        62
    askfilm  
       2017-12-12 08:43:18 +08:00
    @tux 你自己都知道 ai 在吹了, 有什么难理解的, 不使劲吹怎么来钱呢 !
    askfilm
        63
    askfilm  
       2017-12-12 08:45:29 +08:00
    以我个人对 ai 的理解来看, 现在世界上根本就没有实现过 ai !
    nullcoder
        64
    nullcoder  
       2017-12-12 08:53:49 +08:00   ❤️ 1
    我 [喜欢] 一个人
    我喜欢一个 [人]
    我喜欢 [一个] 人

    同样的文字,可以有三个含义。
    相比之下还是重视情态动词,语法粗暴简单的英语适合日常 [文字] 交流。
    中文更适合做密码,尤其加上通假字,成语,典故,俗语等背景。
    hei1000
        65
    hei1000  
       2017-12-12 09:02:54 +08:00
    @clino #8 有自动翻译的,也有只显示字幕不翻译的
    HangMax
        66
    HangMax  
       2017-12-12 09:13:47 +08:00
    更翔的是各大公司的自动客服系统。 不信,你体验一下
    boa2005
        67
    boa2005  
       2017-12-12 09:27:44 +08:00
    因为 语言 = 复杂的感情和知识广度 ,翻译不单纯的只是译字,而需要考虑不同的文化、历史、语境、情感..等一系列问题,如果 AI 翻译问题解决了,那么就相当于已经完成了超级人工智能,它就不再是机器,而一个真正的“人”。

    现在的 AI 深度学习功能 只能解决特定的、一定范围内的问题,它没有人类情感。
    ThatIsFine
        68
    ThatIsFine  
       2017-12-12 09:44:30 +08:00
    目前还处于人工智障阶段
    liaoyaoheng
        69
    liaoyaoheng  
       2017-12-12 09:50:43 +08:00
    Google Translate
    liaoyaoheng
        70
    liaoyaoheng  
       2017-12-12 09:51:43 +08:00
    Google Translate 英转中,因为中文市场少,可能中转其他比较不好
    LokiSharp
        71
    LokiSharp  
       2017-12-12 09:52:14 +08:00
    因为现在的都是人工智障
    qooweds
        72
    qooweds  
       2017-12-12 09:54:35 +08:00
    Google Translate 中转英已经挺不错了
    之前用它跟美亚客服谈笑风生
    chuhemiao
        73
    chuhemiao  
       2017-12-12 10:01:56 +08:00
    中文博大精深,AI 都是英文啊...
    overflowHidden
        74
    overflowHidden  
       2017-12-12 10:10:43 +08:00
    你说的是百度翻译吗?
    openSUSE
        75
    openSUSE  
       2017-12-12 10:39:10 +08:00
    现阶段得 AI 还无法理解自然语言,目前可用的 AI 有时候表现得像人工智障一样。
    ziwu
        76
    ziwu  
       2017-12-12 10:40:42 +08:00   ❤️ 1
    1.因为 AI 具有 24 小时工作和可以批量生产的特点,理论上只需要具备人类的一小部分能力就可以在相关领域超越人类(参考自动射击机器人,工厂的机械手臂),而很多不同方面 AI 的一小步,可能最终会汇聚成一大步。楼主可能还没看过最新的波士顿机器人的研发成果,其仿人型机器人已经可以实现后空翻,自动平衡重心(走路跑步更是不在话下),超越现有的机器人技术一大截,设想这一类机器人配上红外瞄准枪械,就是未来的机器人打仗;
    2.现有的大数据 AI,原理上是对数据的归纳统计,和用历史数据来指导未来差不多一个意思,现在的神经网络大家基本都还处在调参阶段,都还没有在理解其本质上有过大的进步,但就这样瞎调也出了不少作品,人脸识别一类的基本就是这个算法了;
    3.自动翻译很难,AI 如果本身不理解语言的含义,翻译基本是在做查找表的工作;如果 AI 懂这些语言的意思(比如我要去跑步,AI 懂得跑步是什么),那这个翻译就能做到和真人无异了,这时的 AI 已经不仅可以用于翻译
    paw
        77
    paw  
       2017-12-12 10:53:02 +08:00
    但就这样瞎调也出了不少作品
    @ziwu #76 .... 瞎调,哈哈,确实有这个感觉;不是刚有一个学术界撕逼吗?说 ml 都是炼金术
    ipwx
        78
    ipwx  
       2017-12-12 10:56:45 +08:00
    看!那个铁皮轱辘比马车跑得还慢!
    enenaaa
        79
    enenaaa  
       2017-12-12 11:01:17 +08:00
    对 AI 来说,自然语言还是未攻克的领域。
    openSUSE
        80
    openSUSE  
       2017-12-12 11:01:40 +08:00
    @openSUSE 我依然看好 AI,现阶段还在发展中。
    banksiae
        81
    banksiae  
       2017-12-12 11:21:06 +08:00
    推荐阅读《浅谈人工智能:现状、任务、框架与统一 | 正本清源》-- 朱松纯
    swulling
        82
    swulling  
       2017-12-12 11:31:55 +08:00 via iPhone
    说翻译不难的,楼主给我翻一段?
    sunocean
        83
    sunocean  
       2017-12-12 12:04:35 +08:00

    还可以吧, 可能是你中文不够标准?
    stzz
        84
    stzz  
       2017-12-12 12:12:32 +08:00 via Android
    自动翻译翻译不难吧?
    能说说是什么给了你这个错觉吗
    liaoyaoheng
        85
    liaoyaoheng  
       2017-12-12 12:18:16 +08:00
    Jakesoft
        86
    Jakesoft  
       2017-12-12 12:18:59 +08:00 via iPhone
    我电脑太卡了 => my computer is so card 😶这就是谷翻的水平
    fedoral
        87
    fedoral  
       2017-12-12 12:51:13 +08:00
    fanyi.qq.com 这么看 腾讯翻译君很厉害啊
    我电脑太卡了 => My computer's too jammed.
    走,看看我女票漂亮不? => Let's go. Look at my girl friend. Beautiful?
    我去!我不去! => WTF. I'm not going!
    zjuster
        88
    zjuster  
       2017-12-12 13:36:29 +08:00   ❤️ 1
    @FFLY 中文的语义太复杂了。中文的高质量语料库也很少。

    这套东西十年前就一直在搞,别人用高质量的英文语聊训练出了很成功的模型,换成中文就没法看了。

    我个人认为 汉语言的熵太多,不适合做 AI。
    youxiachai
        89
    youxiachai  
       2017-12-12 13:40:08 +08:00
    其实.自动翻译..还是可以看个大概啊.....
    你试一下..把文章..发给一个学英语三年的...翻译出来的..感觉可能还不如自动的..
    UnknownR
        90
    UnknownR  
       2017-12-12 14:28:49 +08:00
    @clino 不是,youtube 上需要自己上传字幕文本,翻译的话可能会自动翻译,之前传视频上去想要让他帮我把视频语音识别成文本,结果传完之后发现需要自己上传它才能在播放的时候选 cc 按钮。。。。
    clino
        91
    clino  
       2017-12-12 14:50:46 +08:00
    @UnknownR #90 youtube 上视频如果生成了语音识别的字幕(刚上载的还没有,过一段时间就有了),那字幕选项就有自动字幕可以选
    ideacco
        92
    ideacco  
       2017-12-12 15:28:04 +08:00
    微软的小冰吹的那么玄乎,然而并没毛卵用啊。
    你跟她说:我早上吃了面包。然后你再问她:我早上吃了什么?
    然后就就么有然后了……各种马虎眼。
    linthieda
        93
    linthieda  
       2017-12-12 15:30:45 +08:00
    @zjuster

    如果说以英语的 word 分布和汉语的字说熵的话,汉语算是比较低的了。日语可能更低。 英语的熵相当高。

    因此现在基于英语的 NLP 模型一般有 word 和 char 作为最小 embedding 两个流派。

    word 一般的问题就是 tail, 至于用 chararcter 作为 embedding, 还需要调参侠们更加努力。
    BlueFly
        94
    BlueFly  
       2017-12-12 16:02:55 +08:00
    别说 AI 了
    就是 LZ 你自己、或者各位真的能看懂中文
    知道所有中文句子的内涵、话里有话的?
    比如,每晚的新闻联播、重大事件的新闻通篇?!
    ZJsnowman
        95
    ZJsnowman  
       2017-12-12 16:08:44 +08:00
    @takato 按照你的说法应该是信息熵低
    shoumu
        96
    shoumu  
       2017-12-12 16:10:56 +08:00
    讲道理,翻译是一个很难的课题,到你这里怎么感觉翻译是非常简单的呢?

    > 不说语音识别翻译,单就是文字翻译也不行啊

    这里面最难的还是翻译,语音识别已经有非常好的解决方案了
    jiqing
        97
    jiqing  
       2017-12-12 16:24:52 +08:00
    现在自媒体挂什么妖风反过来理解就行了。就比如 xx 浏览器隔三差五在首页上给我推什么大数据咋样咋样人工智能咋样咋样。我不相信,因为我本来就知道 xx 浏览器的首页推荐就是骗子和戏子炒作的聚集地,往往他们推送过来的垃圾消息反过来推理就对了
    13036101641
        98
    13036101641  
       2017-12-12 16:34:11 +08:00
    翻译,还是要 AI+人工才是最佳
    oneonesv
        99
    oneonesv  
       2017-12-12 16:42:02 +08:00
    @fedoral 哈哈 真的接地气 试了国内其他家的 完全不能比
    b0x
        100
    b0x  
       2017-12-12 16:44:31 +08:00
    不吹哪来投资 - -
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3012 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 13:45 · PVG 21:45 · LAX 05:45 · JFK 08:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.