昨天早早蹬完了 Fable 5 的额度， GPT 对其评价为 8/10 分。

昨天早早蹬完了 Fable 5 的额度，由于全用于审查各个项目的上层命题，以及大的策略规划，代码能力没太感受出来，不过风格上似乎更注重数据和执行的有效性，可靠性。

最近 5.5 xHigh 正持续帮我诊断游戏加载。所以我让 Fable 复盘了 5.5 的各项总结报告，而 5.5 也采纳了不少建议：

例如，Fable 会把归因搞得更具体，5.5 xHigh 总一个劲埋头“泛化排查”，而 Fable 知道要先解决个别 Fatal ，并固化个别归因工具。而且有注意到 IO 重叠问题，也说出了一些空引用可能带来的污染。对排查问题的先后顺序，指导得比较明确，这是 GPT 5.5 xHigh 没达到的。

5.5 xHigh 也对 Fable 做了个评价：“二线架构诊断顾问，方法比普通泛泛建议强很多，但很多细节坑它还是不知道，必须自己的证据落地。我的评价是 8/10：方法论靠谱，但也不是啥都懂。”

Supplement 1 · 14h 24m ago

我说，由于没用Claude Code，我打算用Codex的Goal模式来完成这项大任务，相比之下，GPT5.5对着目标连续执行任务是否存在一些能力缺陷？

Fable：

“「让它不间断连续执行」是个幻觉——Goal 型 harness 的真相是一串必死的有限会话。Claude Code 用 Loop/Hooks/子代理/后台守护提供的连续性，Codex 一样都没有。所以……（省略）”

这Fable评价Codex话语还够狠的。

Fable

诊断

方法论

7 replies • 2026-06-11 19:38:39 +08:00

409164

16h 51m ago

Fable 毕竟新，解决问题的能力强是预料之中

dabaibai

11h 50m ago

老哥搞啥游戏的。

ryougifujino

11h 48m ago

“二线架构诊断顾问”把我整笑了

Paii

11h 7m ago

同样的标准，gpt 给自己 5.5 xhigh 评分多少

netabare

9h 10m ago via iPhone

问题：所谓 Fable 的优势，到底是模型能力差异，还是产品叙事把一些本来 GPT Codex 也能做到的东西重新包装成了“质变”？

> 我：或者换个角度讲，如果「一个程序员必须用 Fable 才能做某些 Codex + 5.3-codex or 5.5 xhigh/high 无法做到的事情」，这是因为 GPT 太烂、Fable 太强，还是这个程序员自己烂？

GPT：我会很直接地说：大部分情况下，这不是“GPT 太烂 / Fable 太强”，而是这个程序员的工作方式和任务建模能力不够。

但这里不能粗暴等同于“这个人智力差”。更准确地说，是：

这个人把 coding agent 当成了替代自己判断的黑箱，而不是把它当成一个可调度、可验证、可反驳的执行/推理部件。

在这个前提下，Fable 的“强”很容易变成一种代偿。

真正要看的不是“用了 Fable 才成功”，而是：

拿走 Fable 之后，程序员是否还能描述为什么这么做、如何验证、哪里可能错、下一步该查什么。

如果不能，那 Fable 是轮椅。

如果能，那 Fable 是外骨骼。

YanSeven

8h 39m ago

@netabare 程序员是希望“把它当成一个可调度、可验证、可反驳的执行/推理部件。”
但是外接 boss 和投资者包括算法研究者本身可能都是希望能“把 coding agent 当成了替代自己判断的黑箱”。
黑箱里面到底是什么可以往后再说，大家似乎都希望能出来一个“阿拉丁神灯”

MuyuQ

8h 35m ago

X 上有一种看法是 Goal 模式或者 loop 模式，都是在拉屎。
等出了问题的时候，人类根本无法了解屎到底在哪个环节被加入的。
唯一的解就是扩充上下文，但这无法持续。