viskem
V2EX  ›  Claude

昨天早早蹬完了 Fable 5 的额度, GPT 对其评价为 8/10 分。

  •  
  •   viskem · 16h 54m ago · 2155 views

    昨天早早蹬完了 Fable 5 的额度,由于全用于审查各个项目的上层命题,以及大的策略规划,代码能力没太感受出来,不过风格上似乎更注重数据和执行的有效性,可靠性。

    最近 5.5 xHigh 正持续帮我诊断游戏加载。所以我让 Fable 复盘了 5.5 的各项总结报告,而 5.5 也采纳了不少建议:

    例如,Fable 会把归因搞得更具体,5.5 xHigh 总一个劲埋头“泛化排查”,而 Fable 知道要先解决个别 Fatal ,并固化个别归因工具。而且有注意到 IO 重叠问题,也说出了一些空引用可能带来的污染。对排查问题的先后顺序,指导得比较明确,这是 GPT 5.5 xHigh 没达到的。

    5.5 xHigh 也对 Fable 做了个评价:“二线架构诊断顾问,方法比普通泛泛建议强很多,但很多细节坑它还是不知道,必须自己的证据落地。我的评价是 8/10:方法论靠谱,但也不是啥都懂。”

    Supplement 1  ·  14h 24m ago

    我说,由于没用Claude Code,我打算用Codex的Goal模式来完成这项大任务,相比之下,GPT5.5对着目标连续执行任务是否存在一些能力缺陷?

    Fable:

    “「让它不间断连续执行」是个幻觉——Goal 型 harness 的真相是一串必死的有限会话。Claude Code 用 Loop/Hooks/子代理/后台守护提供的连续性,Codex 一样都没有。所以……(省略)”

    这Fable评价Codex话语还够狠的。

    7 replies    2026-06-11 19:38:39 +08:00
    409164
        1
    409164  
       16h 51m ago
    Fable 毕竟新,解决问题的能力强是预料之中
    dabaibai
        2
    dabaibai  
       11h 50m ago
    老哥搞啥游戏的。
    ryougifujino
        3
    ryougifujino  
       11h 48m ago
    “二线架构诊断顾问”把我整笑了
    Paii
        4
    Paii  
       11h 7m ago
    同样的标准,gpt 给自己 5.5 xhigh 评分多少
    netabare
        5
    netabare  
       9h 10m ago via iPhone
    问题:所谓 Fable 的优势,到底是模型能力差异,还是产品叙事把一些本来 GPT Codex 也能做到的东西重新包装成了“质变”?

    > 我:或者换个角度讲,如果「一个程序员必须用 Fable 才能做某些 Codex + 5.3-codex or 5.5 xhigh/high 无法做到的事情」,这是因为 GPT 太烂、Fable 太强,还是这个程序员自己烂?

    GPT:我会很直接地说:大部分情况下,这不是“GPT 太烂 / Fable 太强”,而是这个程序员的工作方式和任务建模能力不够。

    但这里不能粗暴等同于“这个人智力差”。更准确地说,是:

    这个人把 coding agent 当成了替代自己判断的黑箱,而不是把它当成一个可调度、可验证、可反驳的执行/推理部件。

    在这个前提下,Fable 的“强”很容易变成一种代偿。

    真正要看的不是“用了 Fable 才成功”,而是:

    拿走 Fable 之后,程序员是否还能描述为什么这么做、如何验证、哪里可能错、下一步该查什么。

    如果不能,那 Fable 是轮椅。

    如果能,那 Fable 是外骨骼。
    YanSeven
        6
    YanSeven  
       8h 39m ago
    @netabare 程序员是希望“把它当成一个可调度、可验证、可反驳的执行/推理部件。”
    但是外接 boss 和投资者包括算法研究者本身可能都是希望能“把 coding agent 当成了替代自己判断的黑箱”。
    黑箱里面到底是什么可以往后再说,大家似乎都希望能出来一个“阿拉丁神灯”
    MuyuQ
        7
    MuyuQ  
       8h 35m ago
    X 上有一种看法是 Goal 模式或者 loop 模式,都是在拉屎。
    等出了问题的时候,人类根本无法了解屎到底在哪个环节被加入的。
    唯一的解就是扩充上下文,但这无法持续。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   959 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 39ms · UTC 20:14 · PVG 04:14 · LAX 13:14 · JFK 16:14
    ♥ Do have faith in what you're doing.