w568w
V2EX  ›  OpenAI

我的 GPT 5.5 怎么和你们的不一样?

  •  1
     
  •   w568w ·
    w568w · 2 days ago · 2434 views

    最近经常看到有帖子回复说「 GPT 5.5 比 Claude Opus 强得多」「 GPT 5.5 更全能」(例如 t/1217986 )。

    但就我最近几周的使用体验,我感觉 GPT 5.5 相当不如人意啊。具体来说:

    1. 口癖和英文直译腔特别严重。虽然说比之前的 GPT 5.2~5.4 好一些,但也真的只是好一些,还是特别喜欢说「稳」「接」「拆」「跑」「闭环」「收敛」「它更像是……」「不是……而是……」「你说的完全正确」「先说结论」「列出“子弹”」「修改更“硬”」「要不要我……」「我立马开始……」。我尝试写了个 Skill 来试图修复它的回复风格,但也没有太大收益;

    2. 结构化表达能力不行。例如同样是对于一个代码仓库,询问一个需要深入代码研究的问题,Opus 4.8 能够简洁地以一两句话回复 Yes or No ,但 GPT 5.5 就要生成几千 tokens 的、包含四五点小标题的冗长回答,引用一大坨代码,而且每个分点的内容之间相互重叠,读起来全是噪音,心智负担特别高,而且相比于 Opus 的答案,也没有获得什么额外的有效信息量。搞得我现在都不敢问 GPT 5.5 问题了,读得头疼。

    3. 擅自动手,干一大堆根本没有要求的任务。这个我原以为只有 Gemini 之类的模型会犯,但最近 GPT 5.5 也开始频繁出现了:让他看个 review ,讨论一下如何解决,它直接自作主张一口气「阅读了 review 、研究了代码、选择了自己喜欢的解决方案、编写了 AI review 回复」。要不是我及时掐断,它都要调用 GitHub cli ,以我的身份去回复别人了; 还有一次,要求它「阅读一个 bug 描述、定位代码问题」,结果它非要和我讨论「这个 bug 报告的英文措辞不对,应该如何改善」,就很……

    4. 代码风格很差。这个我不知道怎么描述,但是同样让 GPT 和 Opus 去写一个一两千行左右的复杂代码任务,GPT 给我写的代码修修补补之后,最终总是包含几十个零碎函数、一大堆无用的小作文注释、不对称的代码结构(例如有两个 Config 概念,GPT 非要写出一个 struct、一个 class)。这些也都算好的了,毕竟「又不是不能用」,关键是它写着写着会把自己也给绕进去,淹没在自己写的屎山注释和混乱结构里,最后失能得连自己写的细节都忘记了,debug 都做不好了;

    而 Opus 不仅写出来的代码更有「人味」、符合我的预期,甚至有能力修复重构 GPT 写出的屎山,延长 GPT 的工作周期。有一次:GPT 5.5 挣扎两个小时,然后告诉我做不好的任务,Opus 花 15 分钟定位、直接几行代码解决了。


    总之,我目前的体感能力大概是:

    Opus 4.8 ≈ Opus 4.6 >> Opus 4.7 > GPT 5.5 ≈ MiMo 2.5 Pro >> GPT 5.2~5.4 >> Gemini 3.1 Pro

    我的配置:OpenCode + ChatGPT Pro 官方订阅(无中转站),GPT 5.5 xhigh

    如果各位有舒适的使用体验,也欢迎分享点 Harness 方面的干货,我是真没辙了。昨晚项目被 GPT 5.5 乱改一通,气得血压都高了

    35 replies    2026-06-05 17:31:37 +08:00
    409164
        1
    409164  
       2 days ago
    4.8max 秒杀 5.5xhigh
    Ericcccccccc
        2
    Ericcccccccc  
       2 days ago
    用的是 codex 吗
    w568w
        3
    w568w  
    OP
       2 days ago
    @Ericcccccccc 主帖有写,是 OpenCode 。我不太方便把我的 Claude 订阅接入到 Codex ,所以两边都「客场作战」,用一模一样的 OpenCode 配置,来公平比较了。
    Ericcccccccc
        4
    Ericcccccccc  
       2 days ago
    @w568w 这就不清楚了。codex 是很强的,我的体感是只要讲清楚代码都是一遍过的。(我没用过 cc
    lujiaosama
        5
    lujiaosama  
       2 days ago
    @w568w OpenCode 的锅可不小。同样接入 DeepSeek ,用 Claude CLI 和 OpenCode 的表现截然不同。
    Perry
        6
    Perry  
       2 days ago via iPhone
    其实很看你的 Verification loop 如何
    xuhuanzy
        7
    xuhuanzy  
       2 days ago
    你是我第一个看到 opus 改 gpt 的屎山的, 正常来说只有 gpt 给 opus 擦屁股的份
    w568w
        8
    w568w  
    OP
       2 days ago
    @lujiaosama 你的意思是,OpenCode 在 Claude 上能发挥优势,但在 DeepSeek 、GPT 上都有极大劣势?我倒是也可以试试 Codex CLI 就是了

    @Perry 此话怎讲?
    w568w
        9
    w568w  
    OP
       2 days ago
    @xuhuanzy 「正常来说」是怎么来说?能不能分享下你的配置?
    felixcode
        10
    felixcode  
    PRO
       2 days ago
    gpt 5.5 xhigh 感觉比 opus 4.7 max 稳很多。
    opus 快是快,顾前不顾后,改了这个忘了那个。
    Retas
        11
    Retas  
       2 days ago
    codex 的 GPT-5.5 的语言表达感觉能追上 Opus-4.8 了,没有那么糟糕
    w568w
        12
    w568w  
    OP
       2 days ago
    @felixcode 我的体验正好和你相反:GPT 5.5 各种瞎 jb 改,不管上下文,甚至不管我前一句话的要求是什么,按自己喜好乱写; Opus 倒是总是瞻前顾后,每次 plan 时排出一堆 concerns 来

    另外我感觉 Opus 4.7 明显有大幅度降智,Opus 4.8 才勉强回归到了 4.6 的能力水平,所以我把 GPT 5.5 和 Opus 4.7 放在一起
    Zarhani
        13
    Zarhani  
       2 days ago
    没用过 claude ,但是我这边倒是 GPT5.5 生成的代码质量还算不错,我都是先用 GPT5.5 生成大框架后用 deepseek v4 pro 来继续干自动完成的活的,(问就是 codex 限额太少)
    Zarhani
        14
    Zarhani  
       2 days ago   ❤️ 1
    @Zarhani deepseek 给我的感觉就是,只要上下文里面有已有高质量代码,就会变得巨聪明;如果上下文没有高质量代码就会没那么聪明;似乎这个模型底子不错但是后训练不足,小众需求代码不在知识库里面
    lujiaosama
        15
    lujiaosama  
       2 days ago   ❤️ 1
    @w568w 我只是对比了 DeepSeek 在这俩上的表现。CodeX+GPT5.5 高有你说的问题特征,但是没有那么差,看描述像是 Codex5.3 之前比较容易出现的。
    Zarhani
        16
    Zarhani  
       2 days ago
    @lujiaosama 我一直用的 vscode 上的插件,没有安装 codex 独立应用
    w568w
        17
    w568w  
    OP
       2 days ago
    @lujiaosama 嗯嗯。GPT 5.5 肯定是比 Codex 5.3 或者 5.4 强的,尤其在反编译、绕过反爬虫和逆向软件这种安全任务上,明显比 Opus 4.6 强得多。

    但 GPT 5.5 这个工程实践能力在我这里确实不咋行,而且输出口癖的风格还是没扭转过来,有时任务做的差、代码写得烂,又得意洋洋地总结自己做得如何如何好,有种面对伪人实习生的感觉,很火大。
    tanrenye
        18
    tanrenye  
       2 days ago
    @w568w 额,为什么会有必要用同一个 agent 对比,Claude 和 codex 都有针对性的优化,用原厂的 Claude code 和 codex 才是最好的,我自己的体感 5.5 和 Claude 相差不大,5.5 确实代码会啰嗦一些,但无伤大雅,5.5 会更倾向于跟项目现有的风格保持一致,Claude 会更倾向于他自己认为好的实现,但我平时更多用 codex ,因为 Claude 是公司中转的,很慢,但 Claude 有 1M 上下文这个在超长任务的时候会比 codex 有明显优势
    zhangleijuly
        19
    zhangleijuly  
       2 days ago
    可能是 opencode 的问题?模型只是一方面,用什么 agent 调用模型也不能说完全没影响
    xialaoban
        20
    xialaoban  
       2 days ago
    口癖这点真的无比认同
    w568w
        21
    w568w  
    OP
       2 days ago
    @tanrenye > 为什么会有必要用同一个 agent 对比

    因为不用就会有人说「是不是 codex/claude code 的问题?你为什么不用一样的 harness ?你这吐槽没意义」,两头不讨好~

    开玩笑,实际上的原因是我有两边的订阅,然后有一些自己的配置和 skills 之类的,opencode 允许我在同一个会话里面切换不同模型,比较方便。
    AmericanExpress
        22
    AmericanExpress  
       2 days ago via iPhone
    我们给的是 gpt 没有 claude,但 5.5 从刚出用到现在不记得有遇到过这些问题,不过我用的是英语
    dingawm
        23
    dingawm  
       2 days ago
    口癖问题我在 5.5 上基本上没见过了,然后结构化表达能力在 codex 里还好,在网页上很糟糕,很喜欢换行,不知道为啥。擅自动手这个也很少遇到
    neteroster
        24
    neteroster  
       2 days ago via Android
    5.5 是执行的神,opus 是规划的神,我不明白有什么冲突的

    opus 无论 4.6,4.7,4.8 执行就是不行,我真的不明白,一份十分明确的 spec 给进去执行出来就还是会有明确漏项或者矛盾的地方,5.5 甚至 5.4 就完全不会有这种问题(这就是为啥 5.5 在 deepswe 之类的 bench 表现如此之好)

    opus 的优点就是偏好对齐,还有讨论方案,这些微妙的地方,5.x 完全不行
    neteroster
        25
    neteroster  
       2 days ago via Android
    @neteroster 还有一个和工程代码没那么相关的就是 opus 世界知识现在似乎已经是御三家最差了,5.5 长尾世界知识已经有半步 Gemini 水平了(甚至例如 ACG QA 这类以前 GPT 差的离谱的领域),再加上最前沿的数理知识/推理水平,导致写起研究类实验代码非常舒适,我不知道其他细分领域是否也会有这样的情况,但就我自己做数学交叉方向的经验来看,只要涉及数学推理的代码我只能相信 GPT 系列
    drymonfidelia
        26
    drymonfidelia  
       2 days ago   ❤️ 1
    gpt 如果你没明确禁止单文件最多 800 行,它甚至能给我干出 12 万行的 god class
    linkopeneyes
        27
    linkopeneyes  
       2 days ago
    我之前也是降智的一 b ,然后把全局 AGENTS.md 的规则全删了,发现他智商变高了
    kkadmin
        28
    kkadmin  
       2 days ago
    5.5 有开 20x pro 吗,没开的话,可以试试,我自己 5xpro 接 opencode, 公司给的 20x pro 接 ocdex, 比 free 的 5.5 强很多,plus 没开过,不评价。claude code 开的 pro,体感 opus 解决小任务和 ui 强于 5.5, 后端复杂任务弱于 5.5
    w568w
        29
    w568w  
    OP
       2 days ago
    @kkadmin 我开的确实是 5x Pro ,和 20x 会差很多吗😂
    w568w
        30
    w568w  
    OP
       2 days ago
    @neteroster > 5.5 是执行的神
    > 一份十分明确的 spec 给进去执行出来就还是会有明确漏项或者矛盾的地方,5.5 甚至 5.4 就完全不会有这种问题

    啊?我自己使用下来的体验是,GPT 才是漏项的那个,有时我要求他做 A+B ,他做完 A 就直接停下来了,还要殷勤地问我一句「要我继续做 B 吗」。反而是 Opus ,我记忆里没有遇到过你说的执行漏项问题

    > opus 世界知识现在似乎已经是御三家最差了,5.5 长尾世界知识已经有半步 Gemini 水平了

    这个我倒是没太多体验,最近主要做工程问题。Opus 和 GPT 都出现过知识上的问题(例如认为「现在 Python 3.12 及之后的版本都没发布」,未经允许擅自把我项目里所有 python 3.13 和之后的版本字符串全部改成 3.11 )

    之前也做过 AI 辅助研究方向的问题,但是不知道为何 GPT 总给我一种「注意力涣散」的感觉(高情商说就是「思维发散」),问 A 要答 ABCDE ,尝试了几次最后还是回到 Opus 了
    neteroster
        31
    neteroster  
       2 days ago
    @w568w 那我很怀疑是你的 harness 问题了,GPT 在各种 bench 和体验反馈都是执行强,deepswe 有案例分析,原文
    ```
    GPT implements exactly what's asked
    On DeepSWE, GPT-5.5 has the lowest rate of missing stated behaviors of any configuration in the chart; GPT-5.4 sits just behind it.

    GPT reads the prompt and the visible repository contract literally, and produces a patch that honors both. The behavior is consistent across runs: when several GPT trials attempt the same task, they tend to converge on the same interpretation of the prompt, suggesting this precision is a stable trait rather than per-run luck.

    A natural follow-up would be to examine whether this precision comes paired with related stylistic traits, like overly defensive code, surplus error handling, or other markers of a tightly instruction-anchored coding style.
    ```
    w568w
        32
    w568w  
    OP
       2 days ago
    @neteroster 我觉得更可能的是 OpenAI 偷偷给我账号的模型降智或切换了。但我找不到任何证据,试了几个网上的测试例子都通过了
    tengxun
        33
    tengxun  
       1 day ago
    你这比较的方法就不对, Claude 的模型,你要搭配官方工具 claude code 啊
    gpt 的模型就要搭配 codex
    gloeaerris
        34
    gloeaerris  
       1 day ago
    有 claude 模型就用 Claude Code,有 OpenAI 的模型就用 Codex ,opencode+claude 模型或者 gpt 不就是没苦硬吃嘛,人工降智
    w568w
        35
    w568w  
    OP
       1 day ago
    @tengxun @gloeaerris 今天尝试了一下 Codex ,体验如下:

    1. 口癖略微好了一些,但依然存在。主要差异是模型不会输出大段文本了,所以不明显。

    2. 同 1 ,GPT 喜欢说废话的现象基本解决一半了,但还是存在。

    3. 没有改善。依旧对着我的项目乱改。例如我要求他帮我「仅编译并推送一个 Docker 镜像」,他莫名其妙在我 Dockerfile ENTRYPOINT 和一大堆环境变量,又把我前面的 COPY xxx ./ 改成了 COPY . ./,也没有给任何解释。



    我问他「为什么要这么改?」,他回答我:

    「 COPY . ./ 没有强必要。最初这样改是为了让 build context 下的 runtime entrypoint 和后续文件布局更直接可见,但根本没必要。这会让 Docker cache 更差,我会改回 COPY xxx ./。」

    然后就改回去了。吐了,没必要你改什么呢?

    4. 还没有具体测试,虽然执行长时间任务的能力有显著提升,但他在任务中把我项目里的脚本重写了一遍(当然是在我没有要求的情况下),而且重写是错的,后面自己又回滚回去了。所以我谨慎不看好。

    ==============

    总结:输出语气有改善,其他方面没看出和 OpenCode 有特别大的差别。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2894 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 84ms · UTC 03:33 · PVG 11:33 · LAX 20:33 · JFK 23:33
    ♥ Do have faith in what you're doing.