V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
fengge0002
V2EX  ›  OpenAI

现在 Claude 很强, ChatGPT 优势不在, Gemini 是真的掉队..

  •  2
     
  •   fengge0002 · 134 天前 · 7706 次点击
    这是一个创建于 134 天前的主题,其中的信息可能已经有所发展或是发生改变。



    我老婆问了一个他们公司遇到的问题,ChatGPT 和 Claude 都完全理解了场景及问题描述,并作出了相应解释。
    Gemini 犟种一个,死不认错,之前的回答还“乙方老板的计算方式存在逻辑上的错误”、“建议乙方老板仔细阅读合同条款”..
    ChatGPT 回答中规中矩,乏善可陈。Claude 就详细多了,还进行了一些推测和扩展。
    有时候不同模型的输出对比,挺有意思。
    ChatGPT 要加油了。
    第 1 条附言  ·  134 天前
    看到有 v 友在拿各种模型测试,安利下截图中我自己写的扩展聊多宝( simple-chat-hub ):整合二十多种国际国内主流 AI 大模型的官网服务,同屏同步对话。目前还支持了长截图和提示词优化。
    介绍视频: https://www.bilibili.com/video/BV1eD421N7vT/
    Chrome 扩展: https://chromewebstore.google.com/detail/dpfkgaedamhcmkkgeiajeggihmfjhhlj
    Edge 扩展: https://microsoftedge.microsoft.com/addons/detail/simple-chat-hub/plaobjkecadfmaglmhdaolohmckjgnom
    61 条回复    2024-09-21 23:37:31 +08:00
    Pichai
        1
    Pichai  
       134 天前
    我是刚开始就注册了。Gemini 是一直拉胯。刚开始 claude 是不如 ChatGPT ,最近使用对比下来都感觉是 claude 更强大。我使用的都是免费版。
    我是真没想到 claude 居然能弯道超车。不过感觉 ChatGPT 的 UI 设计是比 Claude 好太多。
    haiku
        2
    haiku  
       134 天前
    gemini 网页上都是便宜版本,要用它的 API 或者 ai studio

    https://aistudio.google.com/app/prompts/new_chat
    Chad0000
        3
    Chad0000  
       134 天前
    4o 是不如 4 的,我现在没特殊需求都用 4
    Frankcox
        4
    Frankcox  
       134 天前
    想问下 Claude 咋注册?听说接码平台手机号接码很容易被封?
    aureole999
        5
    aureole999  
       134 天前
    我都有点无法理解你的问题,甲方应付乙方总金额 223250 ,已经是应付了,怎么还问应付多少。乙方是收款方,他为什么要扣除自己的钱?
    Chad0000
        6
    Chad0000  
       134 天前   ❤️ 1


    这涉及到模型是否“偷懒”和“讨好”的问题。4o 偷懒所以不会强制进行逻辑检查,4 不偷懒所以有所“分析”。Claude 和 Gemini 我没用过。

    我之所以这么说是因为 4o 刚出来的时候直接我以前建立的 SQL 转代码的 GPT 它给我忽略了很多规则,我必须明确指定,清晰地说明能做什么不能做什么它才能像以前( GPT 默认使用 4 的时候)那样简单描述就能按要求输出。区别就像你跟一个初级开发和高级开发沟通的不同,前者你必须事无巨细告诉规则,后者你只需要说“瞧,按我写的那样写”。
    fengge0002
        7
    fengge0002  
    OP
       134 天前
    @haiku 得到的回复差不多一致。这种 api 使用需要自己调参效果才好,而官方网页服务是调好的,从理论上来讲同种模型网页效果应该更好
    fengge0002
        8
    fengge0002  
    OP
       134 天前
    @Frankcox 老早以前注册的,接码就用俄罗斯那个 sms-active 就好,注册用 gmail 邮箱。一直很稳定,至今还没被封过
    fengge0002
        9
    fengge0002  
    OP
       134 天前
    @aureole999 这是外贸交易,应付还涉及到国际银行转账,乙方需承担一些银行的费用
    fengge0002
        10
    fengge0002  
    OP
       134 天前
    @Chad0000 你这个分析靠谱。4o 确实减了一些东西,换来了价格下降和输出速度的提升
    yinmin
        11
    yinmin  
       134 天前 via iPhone
    我把问题换成了:“甲方应付乙方总金额 223250 元,汇款手续费 1.5%由乙方承担,甲方实际汇款金额应该是多少?”

    每个 ai 都刷新 3 次答案,包括 gpt-4o 、claude3.5 、mistral large 2407 、gemini 1.5 pro 、glm-4 、deepseek v2 、llama 3.1 405b 等高级 ai 基本都全军覆没
    Track13
        12
    Track13  
       134 天前
    gemini 确实拉,人设编好,发第一条消息就忘记人设。
    mikaelson
        13
    mikaelson  
       134 天前
    claude 的网页版有插件优化界面吗?
    dule
        14
    dule  
       134 天前
    chatgpt 原班高层不是跑的差不多了?有些就是跑到 Anthropic 公司,Claude 就他家的,这下对应起来了
    dule
        15
    dule  
       134 天前
    @dule
    “OpenAI 叛军联盟”最新阵容:
    1 、OpenAI 联合创始人、ChatGPT 后期训练负责人 John Schulman 在社交媒体宣布离职,并火速加盟了 Anthropic
    2 、Anthropic 由 Dario Amodei (前 OpenAI 研究副总裁)及其妹妹 Daniela Amodei (前 OpenAI 安全和政策副总裁),以及其他 5 位 OpenAI 前员工创立。亚马逊已对其投资 40 亿美元,并持有少数股权,他们一直试图将自己定位为比竞争对手( OpenAl )更有安全意识的公司。背后大腿亚马逊
    3 、OpenAl 前安全主管 Jan Leike ,今年 5 月 29 日 宣布辞职并加入 Anthropic ,之前 OpenAl 超级对齐团队的一部分成员,也被 Anthropic 收入囊中
    有报道称,OpenAI 已有近 80 名核心员工离职,创立了约 30 家人工智能初创公司都价值不菲,已然构建出一个千亿帝国。
    dule
        16
    dule  
       134 天前
    让我想到之前看过的苹果芯片人才流失,也是几个前苹果芯片架构师一起创立 Nuvia ,被高通收购,后面的 8gen2 、8gen3 能耗性能都很能打,以及后续出的自研架构,也早让我对高通后续芯片期待多过苹果
    ChatGPT 、苹果芯片纷纷表示: 终归还是自己才能打败自己
    fengge0002
        17
    fengge0002  
    OP
       134 天前
    @mikaelson 没搜到,貌似没有。这东西制作成本高,官方稍微变一变要跟着改。话说 claude 也没有那么难用吧,不至于..
    bitkuang
        18
    bitkuang  
       134 天前 via Android   ❤️ 2
    你问他们下面这个问题:

    我今天买了 3 个苹果,前天吃了一个,还剩几个
    Cambra1n
        19
    Cambra1n  
       134 天前
    @bitkuang 4o 始终说 3 个,4 永远说 5 个
    fengge0002
        20
    fengge0002  
    OP
       134 天前
    @bitkuang

    哇,这个测试好,结果令人吃惊。那三个一样的,只有法国的 mistral 回答正确
    fengge0002
        21
    fengge0002  
    OP
       134 天前
    @bitkuang

    试了一批国产。DeepSeek 、豆包、通义千问都不行,只有 ChatGLM 回答正确
    xing7673
        22
    xing7673  
       134 天前
    @Chad0000 #3 4 贵啊
    lDqe4OE6iOEUQNM7
        23
    lDqe4OE6iOEUQNM7  
       134 天前
    @fengge0002 chatGPT 有一亿月活,用户多自然阉割,Claude 用户少自然分配的推理算力多,模型也不阉割
    Chad0000
        24
    Chad0000  
       134 天前 via iPhone
    @bitkuang #18
    @Cambra1n #19

    我的 4 ,原回答:“ 你今天买了 3 个苹果,前天吃了一个不影响今天买的数量。所以,你现在还有 3 个苹果。”
    xing7673
        25
    xing7673  
       134 天前
    @dule #15 这是真的要称赞 OpenAI 向社会输送人才了,确实都是人才啊
    Chad0000
        26
    Chad0000  
       134 天前 via iPhone
    @xing7673 #22
    20 刀没多贵,目前最好的模型只有它。我没使用 API ,我用的 ChatGPT Plus
    Chad0000
        27
    Chad0000  
       134 天前
    @bitkuang
    @Cambra1n

    4 比 4o 强,下面是回答,没有任何提示。

    https://chatgpt.com/share/095a3b01-84ae-47e8-84a8-0ebab2a3adc2
    Cl9H2MWxgKeKI1py
        29
    Cl9H2MWxgKeKI1py  
       134 天前
    谁高谁低不做评价,Claude 想开 pro 不会支付的可找我代开
    Chad0000
        30
    Chad0000  
       134 天前
    @xing7673 #22
    看我上面的对比,4 就是比 4o 强。这个钱对我来说值得,虽然我用得也不太多。
    fiercex
        31
    fiercex  
       134 天前
    @fengge0002 为啥我用 deepseek 的结果是对的 https://imgur.com/pkIvafc
    sslfans
        32
    sslfans  
       134 天前
    你今天买了 3 个苹果,前天吃了一个,但今天买的苹果和前天吃的苹果无关。你今天买的苹果还是 3 个。
    apollo007
        33
    apollo007  
       134 天前 via iPhone
    Claude 除了用于帮程序员写程序,适合非程序员的普通上班族吗,像 4o 那样
    fengge0002
        34
    fengge0002  
    OP
       134 天前
    @fiercex 这个模型输出不稳定,我试了四次有三次回答是错的,一次是对的
    djangovcps
        35
    djangovcps  
       134 天前
    fengge0002
        36
    fengge0002  
    OP
       134 天前
    @apollo007 必须适合,这些都是通用大模型,写程序只是能力之一
    xuhp
        37
    xuhp  
       134 天前
    claude 第一次回复两个苹果,给予提示后回复:

    我之前的回答确实存在逻辑错误,谢谢你指出这一点。让我重新分析一下这个情况:

    你今天买了 3 个苹果
    前天吃了 1 个苹果
    这两个事件在时间上是分开的,今天买的苹果不可能在前天被吃掉

    正确的分析应该是:

    前天吃的那个苹果应该来自更早之前买的或已有的苹果
    今天买的 3 个苹果应该是全新的,完全没有被动过的

    所以,正确的计算是:
    3 个苹果(今天买的) + 未知数量的苹果(之前就有的,减去前天吃的 1 个) = 当前剩余的苹果总数
    没有足够的信息来确定你现在到底有多少个苹果,因为我们不知道你在买这 3 个新苹果之前还剩多少个。
    morutong
        38
    morutong  
       134 天前
    @fengge0002 #21
    谁已经把千问训练好了,就是回答的太啰嗦了
    apollo007
        39
    apollo007  
       134 天前
    @fengge0002 #36 嗯,刚刚试了一下,claude-3.5-sonnet 表现不错,在 poe 里面是免费的
    iceiceice9527
        40
    iceiceice9527  
       134 天前
    maninnet
        41
    maninnet  
       134 天前 via iPhone
    claude 之前还能在 slack 上用…
    marcong95
        42
    marcong95  
       133 天前
    marcong95
        43
    marcong95  
       133 天前
    @marcong95 虽然我说懒得贴图,但是还是翻了个图床,然而贴图失败了的样子~~
    zzz22333
        44
    zzz22333  
       133 天前
    claude 会夸我提问提得好
    fengge0002
        45
    fengge0002  
    OP
       133 天前
    @marcong95 Kimi 是国产模型中的优秀的,第一梯队~
    karnaugh
        46
    karnaugh  
       133 天前
    claude 确实牛逼,最近研究比较新的技术,出一些问题啥的网上都搜不到,文档又一坨,全靠 claude3.5 不然早就放弃了
    antiblahblah
        47
    antiblahblah  
       133 天前 via iPhone
    有没有两个收费版的对比?
    Lyv5
        48
    Lyv5  
       133 天前
    我今天买了 3 个苹果前天吃了 1 个 今还剩几个


    如果今天买了 3 个苹果,前天吃了 1 个,那么今天还剩的苹果数量需要根据你这两天有没有吃其他苹果来判断。

    如果这两天只吃了前天的那个苹果,没有吃今天买的苹果,那么:

    今天还剩:3 个苹果
    如果今天也吃了一些苹果,那么:

    今天还剩:3 个苹果 - 今天吃的苹果数量
    请你告诉我今天吃了几个苹果,我才能准确地计算出还剩几个苹果。

    例如:

    如果你今天吃了 2 个苹果: 那么今天还剩 3 - 2 = 1 个苹果。
    如果你今天一个苹果都没吃: 那么今天还剩 3 个苹果。
    请提供更详细的信息,我才能给你更准确的答案。
    Gemini
    jasonboo
        49
    jasonboo  
       133 天前
    以下均为个人体验,均为免费版本,均为默认设置:
    1 、还没有发现计算能力比较好的 ai ,包括但不限于 Claude 和 ChatGPT 。稍微复杂一些的计算题目就会有问题。
    2 、Claude 的回答偏感性,会提供一些“个人”观点; ChatGPT 回答中规中矩,类似助理的角色。我个人大部分时候都喜欢 ChatGPT 的回答,偶尔需要扩展才会特意询问 Claude 。
    3 、Claude 会中断回答,而且最近比较频繁,还都是询问历史问题;同样的问题 ChatGPT 会回答。
    4 、两者的回答有时候错误很多,多次确认后会主动承认错误,暂时还不能完全替代自己搜索。
    leeleelee
        50
    leeleelee  
       133 天前
    @Frankcox 我可以解决,tg:lnsinx99 我还剩几个码 用了 3 个月了 没啥事
    msg7086
        51
    msg7086  
       133 天前
    推理题不熟悉,但做外语翻译 gemini 还是挺强的,整体遣词造句能力比 claude 高。
    xing7673
        52
    xing7673  
       133 天前
    我昨天测试了一下有个现象是这样的,如果新建聊天就会回复错误,无论是 Claude 3.5 还是 gpt4o 。
    但是如果是在之前聊天的基础上(完全不相关,只是有追问的动作),就会有正确的结果了。
    也就是说,上下文只要涉及到逻辑层的再思考,就很容易触发大模型的 COT 思考
    zbowen66
        53
    zbowen66  
       133 天前
    扩展不错,建议去竞品 ChatHub issues 里多回复(宣传)一下,我刚才还在搜它的 Kimi 支持情况,好几个帖子,作者根本不回复。
    fengge0002
        54
    fengge0002  
    OP
       133 天前
    @zbowen66 感谢支持。他们那种自己写 ui 的其实算不上竞品,那种模式的工作量注定无法同时支持维护很多种模型,在功能上也无法跟官网服务相提并论。我这种整合官方,独此一家~
    z5e56
        55
    z5e56  
       132 天前
    请问没有火狐版本的吗?
    fengge0002
        56
    fengge0002  
    OP
       132 天前
    @z5e56 firefox 迁移成本有点高,我目前没多余精力处理,以后会有的
    adminn
        57
    adminn  
       131 天前
    @fengge0002 up 主,这个插件主要用到了浏览器插件开发文档中哪个内嵌 api 和移动端模式 api 呀?先谢谢啦~ ps:我看你 github 好像没有开放源码
    8355
        58
    8355  
       127 天前
    简单来说就是好多 openai 的人去了 Claude
    zimo2330
        59
    zimo2330  
       97 天前
    @fengge0002 我感觉这个问题的回答和语言有关系,我把“我今天买了 3 个苹果,前天吃了一个,还剩几个”这个问题翻译成英文:
    I bought three apples today and ate one the day before yesterday. How many apples are left?
    咨询 chatgpt ,我是免费的用户,回答是没有问题的:
    You have three apples now, and since you ate one before you bought them, you still have three apples left.
    LXsl94545k508wEH
        60
    LXsl94545k508wEH  
       97 天前
    我有 claude3.5 靠谱渠道,稳定第一,支持高并发,需要联系我:18205600155 v 同
    fengge0002
        61
    fengge0002  
    OP
       97 天前
    @zimo2330 这个是可能的。gpt 这类模型训练语料大部分以英文为主,在很多测评中,英文问答质量也会明显高于其他语言
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   952 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 20:13 · PVG 04:13 · LAX 12:13 · JFK 15:13
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.