• 请不要在回答技术问题时复制粘贴 AI 生成的内容
LonelyM
V2EX  ›  程序员

GPT 完胜 Claude

  •  
  •   LonelyM · 3 days ago · 3533 views

    🚀根据 DeepSWE (最佳编码基准)排名:

    gpt-5.5 xhigh 完胜 opus-4.8 max

    所以,聪明的你,选 Codex 还是 Claude code ?🙂

    20 replies    2026-06-03 15:31:50 +08:00
    cairnechen
        1
    cairnechen  
       3 days ago
    4.8 等这波付费用户测试弄完了应该是会回升的,当然,这不影响我骂 A➗
    409164
        2
    409164  
       3 days ago
    claude max 连 gpt5.5 high 都打不过吗?真的假的
    Retas
        3
    Retas  
       3 days ago
    聪明的人会选择双持~
    lujiaosama
        4
    lujiaosama  
       3 days ago
    @Retas 两个都同时拉裤子呢。得等外星人发模型了。
    409164
        5
    409164  
       3 days ago
    看了一下,做的只是 PASS@1 情况下的排行榜,实际上经过简单修正,还是 claude 的结果可用性更高
    AS4694lAS4808
        6
    AS4694lAS4808  
       3 days ago via Android
    没人用 gemini 3.5 flash 么,我觉得也挺好用的,而且速度能到 300+
    Retas
        7
    Retas  
       3 days ago
    @lujiaosama 两个都拉了就是天才程序员陨落了
    lujiaosama
        8
    lujiaosama  
       3 days ago
    @Retas 天才程序员选择用国模凑合,天才程序员发现自己服务器被干崩了
    dingawm
        9
    dingawm  
       3 days ago
    @409164 #5 "实际上经过简单修正,还是 claude 的结果可用性更高"
    这个简单修改的结果哪里能看呢
    409164
        10
    409164  
       3 days ago
    @dingawm 使用体感和员工反馈
    dingawm
        11
    dingawm  
       3 days ago
    @409164 #10 6
    jaoyina
        12
    jaoyina  
       3 days ago
    @LonelyM

    国模居然是 Kmi 第一,deepseek 8%?和第一名 70%差好多啊。
    MIUIOS
        13
    MIUIOS  
       3 days ago
    最近 claude 的模型智力,真的是路过的狗都可以撒泡尿, 继美国豆包后的美国千问,连一个分词器都分不明白的模型。
    andrew2558
        14
    andrew2558  
       3 days ago
    首先这个 gemini 3.5 flash 怎么哪都在吹,google 自己在吹,这些排行榜也是,自己用过就知道多差。根本干不了活,让他干活纯瞎编胡扯。而且这个榜上没有 cursor 的 composer 2.5,这个真的被严重低估了
    Meursau1T
        15
    Meursau1T  
       2 days ago
    gemini 在前面的我一概认为是野榜
    xyooyx
        16
    xyooyx  
       2 days ago
    gemini:try creative coding in frontend
    frantic
        17
    frantic  
       2 days ago
    gemini 比 opus 4.6 都强;
    sonnet 4.6 high 比 opus 4.6 max 强;
    mino-v2.5-pro 比 GLM 5.1 强;

    这榜单感觉也太野鸡了
    nakun233
        18
    nakun233  
       2 days ago
    4.7 在解决同一个问题上,同一个提示词,给的解决方案不如 5.5 ,感觉在通用解决问题上,还没进 coding 之前 5.5 体感强一些,但到 coding 的时候 4.7 还是比 5.5 规范强一些,也会自主加单元测试和测试用例(没提示让他做
    wcwcxiaobin
        19
    wcwcxiaobin  
       2 days ago
    mimo 2.5 pro 都比 gemini 3.5 flash 还差,那不是拉完了?
    fqyd
        20
    fqyd  
       2 days ago
    基本野榜了,kimi2.6 我的使用体验除了有个多模态外,全方位不如 deepseekv4 pro 。不可能有榜单里面差距的那么大
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2573 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 64ms · UTC 00:58 · PVG 08:58 · LAX 17:58 · JFK 20:58
    ♥ Do have faith in what you're doing.