GPT 完胜 Claude

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

🚀根据 DeepSWE (最佳编码基准)排名：

gpt-5.5 xhigh 完胜 opus-4.8 max

所以，聪明的你，选 Codex 还是 Claude code ?🙂

GPT

Claude

编码

20 replies • 2026-06-03 15:31:50 +08:00

cairnechen

3 days ago

4.8 等这波付费用户测试弄完了应该是会回升的，当然，这不影响我骂 A➗

409164

3 days ago

claude max 连 gpt5.5 high 都打不过吗？真的假的

Retas

3 days ago

聪明的人会选择双持～

lujiaosama

3 days ago

@Retas 两个都同时拉裤子呢。得等外星人发模型了。

409164

3 days ago

看了一下，做的只是 PASS@1 情况下的排行榜，实际上经过简单修正，还是 claude 的结果可用性更高

AS4694lAS4808

3 days ago via Android

没人用 gemini 3.5 flash 么，我觉得也挺好用的，而且速度能到 300+

Retas

3 days ago

@lujiaosama 两个都拉了就是天才程序员陨落了

lujiaosama

3 days ago

@Retas 天才程序员选择用国模凑合，天才程序员发现自己服务器被干崩了

dingawm

3 days ago

@409164 #5 "实际上经过简单修正，还是 claude 的结果可用性更高"
这个简单修改的结果哪里能看呢

409164

3 days ago

@dingawm 使用体感和员工反馈

dingawm

3 days ago

@409164 #10 6

jaoyina

3 days ago

@LonelyM

国模居然是 Kmi 第一，deepseek 8%？和第一名 70%差好多啊。

MIUIOS

3 days ago

最近 claude 的模型智力，真的是路过的狗都可以撒泡尿，继美国豆包后的美国千问，连一个分词器都分不明白的模型。

andrew2558

3 days ago

首先这个 gemini 3.5 flash 怎么哪都在吹，google 自己在吹，这些排行榜也是，自己用过就知道多差。根本干不了活，让他干活纯瞎编胡扯。而且这个榜上没有 cursor 的 composer 2.5,这个真的被严重低估了

Meursau1T

2 days ago

gemini 在前面的我一概认为是野榜

xyooyx

2 days ago

gemini：try creative coding in frontend

frantic

2 days ago

gemini 比 opus 4.6 都强;
sonnet 4.6 high 比 opus 4.6 max 强;
mino-v2.5-pro 比 GLM 5.1 强;

这榜单感觉也太野鸡了

nakun233

2 days ago

4.7 在解决同一个问题上，同一个提示词，给的解决方案不如 5.5 ，感觉在通用解决问题上，还没进 coding 之前 5.5 体感强一些，但到 coding 的时候 4.7 还是比 5.5 规范强一些，也会自主加单元测试和测试用例（没提示让他做

wcwcxiaobin

2 days ago

mimo 2.5 pro 都比 gemini 3.5 flash 还差，那不是拉完了？

fqyd

2 days ago

基本野榜了，kimi2.6 我的使用体验除了有个多模态外，全方位不如 deepseekv4 pro 。不可能有榜单里面差距的那么大