glm5.1， kimi2.6， minimax2.7， mimo v2.5， deepseek v4，编程能力上的排名如何？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

先抛个砖：GLM5.1 > deepseek v4 > minimax2.7 ≥ mimo v2.5 ≈ kimi2.6

Supplement 1 · 2 days ago

以一个案例来分析这几个的能力：帮我生成一个天气查询H5应用提示词就这一句，都一样。

glm5.1： https://imgchr.com/i/pehcWCR 天气温度假

kimi2.6：https://imgchr.com/i/pehczKf 天气温度真

minimax2.7：https://imgchr.com/i/pehcBvV 拉完了

mino v2.5 ：第一遍没有给我生成，换提示词：帮我开发一个天气查询H5应用。才继续生成：https://imgchr.com/i/pehgQIJ 天气温度假。有一个背景下雨的效果

deepseek v4： https://imgchr.com/i/pehcgUJ 温度真

仅针对这个案例的评价：glm5.1，kimi2.6 可以， deepseek v4 ，mino v2.5 次之。 minimax2.7 什么玩意？

大家也可以自己测试下。

Supplement 2 · 2 days ago

根据案例实测，纠正我之前的排名：glm5.7 >= kimi2.6 >= deepseek v4 > mimo v2.5
附：minimax 不配上桌。

Supplement 3 · 2 days ago

换了一家图床服务

glm： https://pic1.imgdb.cn/item/69edd9636dcdaf678a8bc3fc.png

kimi2.6： https://pic1.imgdb.cn/item/69edd9556dcdaf678a8bc3f9.png

minimax2.7：
- https://pic1.imgdb.cn/item/69edda426dcdaf678a8bc4b5.png
- https://pic1.imgdb.cn/item/69edda516dcdaf678a8bc4ba.png

mimo v2.5： https://pic1.imgdb.cn/item/69edd9fb6dcdaf678a8bc460.png

deepseek v4： https://pic1.imgdb.cn/item/69edda116dcdaf678a8bc48b.png

Supplement 4 · 2 days ago

接评论区的要求，增加 qwen
Qwen3.5 : https://pic1.imgdb.cn/item/69eddd196dcdaf678a8bc75c.png 和 minimax 一样，拉。
Qwen3.6-plus： https://pic1.imgdb.cn/item/69edddbc6dcdaf678a8bc7d4.png 拉
Qwen3-coder 模式： https://pic1.imgdb.cn/item/69eddeb36dcdaf678a8bc93c.png
这次的案例实测，都是用的官网的网页版，使用最新的模型测试。

其它的模型，大家感兴趣的，可以自己测试一下。

总结：国产模型第一梯队 glm ，kimi ，第二梯队：deepseek ，mimo ，第三梯队：qwen ，minimax 。

Supplement 5 · 1 day ago

Claude4.6 ，4.7 ，gpt5.5 ，Gemini3.1 ，大家可以自行测试，我这里暂时只测试国产的几个编程中主流的大模型。

排名

编程

模型

90 replies • 2026-04-28 11:01:48 +08:00

canyue7897

2 days ago via iPhone

我觉得 kimi 还可以哈？
没想到这么拉？

onedge

2 days ago

GLM 5.1 > DS v4 = Kimi 2.6 > mimo v2.5 > minimax 2.7

cookii

2 days ago via Android

minimax 不配上榜好吧，夸张点说 4B 模型水平

BestEicky

2 days ago

@cookii 说是 4B 模型都抬举它了，应该是 SB 模型水平吧

uqf0663

2 days ago

kimi 我会继续订阅，但是 minimax 就算了，订阅完用了三天我就放弃了，不会再考虑使用。

onedge

2 days ago

@uqf0663 minimax 已经完全龙虾了，m2.5 刚出我还觉得能力可以的，2.7 真的废了

ayasealter570

2 days ago

minimax 官方订阅的极速版，智力低到没边了

huaweii

2 days ago via Android

@ayasealter570 有没有例子看看，好奇

uqf0663

2 days ago

@onedge 我就是用这龙虾的，m2.7 真的是连应付龙虾基本运行都有坑，目前我的龙虾只有 k2.6 勉强马马虎虎能凑合用。

junwind

2 days ago

@canyue7897 实测的这个案例，kimi 还行，不过生成是很慢的

junwind

2 days ago

@canyue7897 kimi 不拉，是我个人的武断，实测后还不错

drealism

2 days ago via Android

可以把 qwen 系列补一个进去么🤜🤛

ebushicao

2 days ago

每次有人说跑分能够说明能力，我就会举出 minimax2.7 这个例子，那真是连 skill 和 tool 都不一定会调用，某些时候我本地部署的 qwen3.5 9b 都比它强。

aes114514gcm

2 days ago

和我的体感比较接近，glm5.1 略强于 kimi2.6 ，

zenfsharp

2 days ago

GLM5.1 > deepseek v4 > 其他，起码到这里是同意的。
我刚开了 opencode 的 Go 订阅，在 opencode-cli 里使用同样的 skill 、MCP 、Agent.md ，问 GLM 我项目里的一个业务逻辑，直接一次性揪出来了，而 DS 没有，反复提示了三次才找到。

zenfsharp

2 days ago

不知道各种公众号是有任务还是怎么回事，一个劲的鼓吹 deepseek v4 ，跟实际体验严重背离。

lukaktus6768

2 days ago

看到 glm 我就要踩一脚，买谁都不要买他

anmie

2 days ago

@zenfsharp 自媒体不这么写没人看啊，但是你看 Deepseek 官方就实在多了，官方在公众号里，明确说了模型在某些方面比 xx 模型要弱，而不是无脑鼓吹遥遥领先。
这么说把，做信息分享类的自媒体，有一个算一个，肯定会夹带私货，在我看来，有一个算一个都是傻逼。而看自媒体说的就深信不疑的人也是傻逼。

我自始至终，从大模型刚能聊天，到现在 agentic ，Deepseek 虽然不是最强的那个，但是一直都是我的主力，不为别的，我坚定的站在这样一个不焦虑，不浮躁的人和公司这边。（而 minimax 我根本试都没试过，不感兴趣。）

metalvest

2 days ago

GLM5.1 天气温度假，为什么排第一？

weilongs

2 days ago

minimax2.7 排不到那个位置.

Desiree

2 days ago

暂时只用过 Glm 跟 minimax2.7 挺垃圾的，glm 勉强能用，但是比 cc 跟 codex 还是差一大截，minimax2.7 是完全不能用

zzz123456qqq

2 days ago

啊

richardwong

2 days ago

GLM5.1 不支持多模态挺难受的

owt5008137

2 days ago via Android

@richardwong 官方送的视觉识别 mcp 可以勉强顶一顶。

Azmeont

2 days ago

GLM5.1 和 DSv4-Pro 体感都比 opus4.6 强，但 DSv4 胜在 1M 上下文

issakchill

2 days ago

看到 minimax 不上桌就放心了

Lighfer

2 days ago

不测一下 qwen3.6 27b 吗?据说编程能力也也很强？

xiaomushen

2 days ago

基本同意，今天高强度用 DeepSeek V4 Pro

xiangqiankan

2 days ago

deepseekv4 只是编码方面的后训练不足，架构设计上这是唯一的真神，理论上是开源模型的天花板

mingtdlb

2 days ago

GLM 是写代码比较强吗？我感觉他 chat 有点拉

iamzz

1 day ago

难兄难弟。

shuiduoduo

1 day ago via iPhone

和 claude4.7 对比一下呢

passion336699

1 day ago

minimax 不做评价...

lizhesystem

1 day ago

minimax 确实拉，不在一桌，不过周末使用了 DeepSeekV4 Pro 确实超乎预期，如果暂时没有好用的模型我会优先选择用它。

Danswerme

1 day ago

@shuiduoduo Claude Opus 4.7 不用对比，现在是全球范围内断崖式领先。

aikilan

1 day ago

minimax 确实不行，之前自己写的应用去测试接入第三方 provider 的时候，用这家测试了下我一度怀疑是我自己的接入方式有问题

MagicLi

1 day ago

kimi 为啥我感觉非常不耐用呢。100 的尝鲜套餐。

junwind

1 day ago

目前国内 glm5.1 ，kimi2.6 ，dsv4 可以选择，哪个能订阅，哪个便宜就用哪个。dsv4 我看好后期上华为卡后，价格再降一大波，并且应该也不会有订阅售罄的烦恼。

goodryb

1 day ago

这个测试多少有点敷衍了，网页版都是聊天的，测试编码起码用个 CLI 试一试吧

Adyun

1 day ago

minimax 纯拉 29 元送了

ethanpeng

1 day ago

codex 5.5 xhigh

思考过程：

WashFreshFresh

1 day ago

@Danswerme #35 你是忘记加狗头了吗，不是默认都 4.6>4.7

mscsky

1 day ago

minimax 没算力了吧

hotbaidu

1 day ago

@zenfsharp opencode 的 Go 订阅 deepseek v4 是不是只有 flash 没有 pro ，我在其他平台测试 deepseek v4 flash 智力不如 kimi

mscsky

1 day ago

要比也是本地部署了比

Tink

PRO

1 day ago

minimax 真的是烂完了，问着问着给我爆乱码了

jlkm2010

1 day ago

GLM 5.1 >= DS v4 > Kimi 2.6 > minimax 2.7 > mimo v2.5

jimrok

1 day ago

minimax 确实弱智，以后可以从测评里面剔除掉。

fkdtz

1 day ago

@BestEicky 兄弟心直口快

brucedone

1 day ago

"不诱于誉，不恐于诽，率道而行，端然正己。" 就这个态度，做的事儿，这价格，就已经很顶了，编码不足人家自己也说了，不足就是不足，你也要让人家进步呀。

o99o

1 day ago

大家的 deepseek v4 是在 deepseek 自己家平台上订阅的么？感觉用的很快。10 块钱的 token 很快就没了。

fkdtz

1 day ago

在我印象里 minimax 效果还不错啊，甚至在打开这篇帖子之前我一直都这样以为，
怎么反差这么大？一直就这么拉吗？之前是营销号借着龙虾风无脑吹的吗？
有没有兄弟知道咋回事？

zenfsharp

1 day ago

@hotbaidu #44 有的兄弟，pro 和 flash 都有的。

coldle

1 day ago

@fkdtz #52
minimax 一直狂蒸 claude ，在 minimax-m2.1 时代还能跟 glm-4.7 在某些场景互有来回，从 m2.5 开始就完全跟不上了，所谓的火只是卡在一个「效果比他好的模型参数大价格贵，参数比他小的模型效果比他差」的临界点，在养虾普遍 token 焦虑的时候搭了下顺风车

现在 deepseek-v4-flash 出来直接替换生态位，要多模态有 k2.6 ，要性价比有 v4f

wwhc

1 day ago

楼主的测试有偏差，本地部署的 Qwen3.6 27B/35B 使用楼主的提示词都能生成达到楼主图中 GLM 的水准的代码渲染，本地部署的 gpt-oss 120B 倒真是惨不忍睹，生成的的代码渲染出的页面没法看

xixka

1 day ago

我自己的使用感受，Kimi 代码弱，glm 幻觉高，都只能是勉强

qxq94

1 day ago

Minimax2.7 确实一句提示词垃圾，得补充一次功能无法运行，UI 界面太丑了。生成的也就还能看
![MB7Ej2nAcUPxj3GF0puqDXtngr3u720m.gif]( https://cdn.nodeimage.com/i/MB7Ej2nAcUPxj3GF0puqDXtngr3u720m.gif)

litchinn

1 day ago

1M 上下文到底关不关键，在大型项目或长期开发中是否起关键作用呢？

Jiajin

1 day ago

本地部署的 qwen3.6-27B-FP8
cli 工具：claude code

温度用的真实接口，检索城市有问题，但是定位自己的位置是完全正确的，温度显示也没问题。

![天气](

)

coldle

1 day ago

@litchinn #58
注意力不严重丢失的话，读大项目非常有用，实打实的「大就是好」。分别用 ds 和 glm 读大型项目就知道了，ds 还在正常聊的时候 glm 已经流口水了（

不过 ds 编程能力本身可能没 glm 那么特化（也可能是后训练不足的缘故），落实到具体写代码场景反而不如注意力飞速丢失的 glm

tangwz

1 day ago

我实测了 DeepSeek V4 ，整理来说也是第一梯队，不过看评分还是 GLM5.1 和 KIMI 2.6 略微领先。

参考： https://www.bilibili.com/video/BV1gSoUBYEdV/

Jiajin

1 day ago

@wwhc 核心问题是 codex 、cc 等工具内置了很多 agentic coding 的提示词，测试要控制变量。他是这个纯网页端测试。天然不适合这种任务。

junwind

1 day ago

@Jiajin 那你又搞错了，正是在这种都不依赖别的工具下测试，才能体现模型本身的底色。

lear7

1 day ago

个人认为 DeepSeek v4 Pro Max 能赶上 Sonnet 4.5 的效果，比 Sonnet 4.6 可能还差一点点。

至于其他国内大模型，我不用，浪费金钱是一回事，还浪费生命。

Jiajin

1 day ago

@junwind 我的意思是你应该在同一个 agentic 工具（比如 claude code ）下测试不同的本地部署的模型。控制变量。网页版各家都有自己的不同的提示词，甚至还有降智、限流。

wwhc

1 day ago

@Jiajin
@junwind
不依赖别的工具，本地部署的 Qwen3.6 27B/35B 也能达到 GLM 的水准当使用“帮我生成一个天气查询 H5 应用”这个提示词

binaryify

1 day ago

@junwind #10 kimi 白天限速,晚上飞快

ty29022

1 day ago

同意 minimax 是坨屎的结论

一句话的提示词，生成一个前端页面，用来评估编程性能，是不是有些片面呢

hotbaidu

1 day ago

@zenfsharp 那我也去订阅试试，昨天只体验 v4 flash 效果不好

calpes

1 day ago

你们每天测的都是啥场景，都是一句话小需求吗？都不说 harness 的场景，就标准 spec 模式下涉及超过 5 个服务的需求，你们那 200k 的上下文能 plan 出来个正经东西吗？ ds4 最屌的不就是这个注意力打折的不是很厉害的 1M 上下文吗

jaoyina

1 day ago

@zenfsharp

deepseek 有国家战略意义，

jaoyina

1 day ago

@richardwong

glm 的策略是不同模态用分开的模型，我记得官网有说明，它另外有个带名称里 v 的模型。

xiaomushen

1 day ago

@calpes 总不能让他们拿着正经项目去测试吧，哈哈哈

calpes

1 day ago

@xiaomushen 不看正经项目那不还是赛博斗蛐蛐吗？

xiaomushen

1 day ago

@calpes 不然呢？正经项目哪儿可能这么短时间，正经测一遍？

xzpjerry731

1 day ago via iPhone

Op 是在本地跑的吗

evilgod528

1 day ago

glm5.1 和其它（目前后端领域使用下来的体会），希望 ds v4 快点优化上来，干掉 Z➗

justxwy

1 day ago

https://x.com/hantmango/status/2048308533477945366?s=20 我测下来是 kimi 和 ds v4 pro 比较好。

KingGaruda

1 day ago

我感觉这个测试场景有点草率。。至少在你的 claudeCode 里选定模型测试？感觉偏差源于官方优化。我只是好奇正经自开发场景下 glm/kimi/ds 哪个比较合适。

loolac

1 day ago

这样儿比较没意义，信息供应都不一致，deepseek-v4 的数据都还是 2025 年 5 月前的。

感觉上模型能力越强幻觉越严重。kimi2.6 用的比较多，但是 deepseek-v4 感觉比 kimi2.6 好很多。

stdout

1 day ago

mimo v2.5 pro >= GLM 5.1 >= DS v4 pro >= kimi 2.6 > minimax 2.7 深度读代码找到 bug 解决 bug 的能力，写大量代码的话都不行。说实话 codex 真是免费给大家用的。codex100u 的性价比远超这些。国产还要加油啊

xFrye

1 day ago

对比之下 minimax 是路边的，官方的 kimi2.6 我觉得还不错，就是消耗有点快

kashao

1 day ago

@stdout mimo V2.5 pro 的上下文记忆打折不，我记得比 ds V4pro 多了多模态，但是 Token Plan 确实小贵

phli

1 day ago

这是 gemini 3.1 pro 网页端生成的。
<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no">
<title>极简天气 H5</title>
<script src="https://unpkg.com/vue@3/dist/vue.global.js"></script>
<script src="https://cdn.tailwindcss.com"></script>
<style>
/* 隐藏滚动条但保留滚动功能 */
.no-scrollbar::-webkit-scrollbar {
display: none;
}
.no-scrollbar {
-ms-overflow-style: none;
scrollbar-width: none;
}
</style>
</head>
<body class="bg-gradient-to-br from-blue-100 to-blue-300 min-h-screen flex items-center justify-center p-4">

<div id="app" class="bg-white/80 backdrop-blur-md rounded-3xl shadow-xl w-full max-w-sm p-6 overflow-hidden">
<div class="relative mb-6">
<input
v-model="searchCity"
@keyup.enter="getWeather"
type="text"
placeholder="输入城市名称，如：北京"
class="w-full bg-white/90 px-4 py-3 rounded-xl shadow-sm focus:outline-none focus:ring-2 focus:ring-blue-400 transition-all text-gray-700"
>
<button
@click="getWeather"
class="absolute right-2 top-2 bottom-2 bg-blue-500 hover:bg-blue-600 text-white px-4 rounded-lg transition-colors font-medium"
>
查询
</button>
</div>

<div v-if="loading" class="text-center py-10">
<div class="animate-spin rounded-full h-8 w-8 border-b-2 border-blue-500 mx-auto"></div>
<p class="text-gray-500 mt-3 text-sm">正在获取天气数据...</p>
</div>

<div v-else-if="errorMessage" class="text-center py-8 text-red-500 bg-red-50 rounded-xl">
{{ errorMessage }}
</div>

<div v-else-if="weatherData" class="fade-in">
<div class="text-center mb-6">
<h2 class="text-3xl font-bold text-gray-800 tracking-wider">{{ weatherData.city }}</h2>
<p class="text-gray-500 mt-1">{{ weatherData.date }}</p>
</div>

<div class="flex items-center justify-center mb-6">
<span class="text-6xl mr-4">{{ weatherData.icon }}</span>
<div>
<div class="text-5xl font-black text-gray-800">{{ weatherData.temp }}°C</div>
<div class="text-xl text-gray-600 mt-1 font-medium">{{ weatherData.description }}</div>
</div>
</div>

<div class="grid grid-cols-2 gap-4">
<div class="bg-white/60 p-3 rounded-xl flex items-center">
<span class="text-2xl mr-2">💧</span>
<div>
<div class="text-xs text-gray-500">湿度</div>
<div class="font-bold text-gray-700">{{ weatherData.humidity }}%</div>
</div>
</div>
<div class="bg-white/60 p-3 rounded-xl flex items-center">
<span class="text-2xl mr-2">💨</span>
<div>
<div class="text-xs text-gray-500">风速</div>
<div class="font-bold text-gray-700">{{ weatherData.windSpeed }} km/h</div>
</div>
</div>
<div class="bg-white/60 p-3 rounded-xl flex items-center">
<span class="text-2xl mr-2">🌡️</span>
<div>
<div class="text-xs text-gray-500">体感温度</div>
<div class="font-bold text-gray-700">{{ weatherData.feelsLike }}°C</div>
</div>
</div>
<div class="bg-white/60 p-3 rounded-xl flex items-center">
<span class="text-2xl mr-2">👁️</span>
<div>
<div class="text-xs text-gray-500">能见度</div>
<div class="font-bold text-gray-700">{{ weatherData.visibility }} km</div>
</div>
</div>
</div>
</div>

<div v-else class="text-center py-12 opacity-50">
<span class="text-6xl block mb-4">🌍</span>
<p class="text-gray-500">搜索你关心的城市天气</p>
</div>
</div>

<script>
const { createApp, ref, onMounted } = Vue;

createApp({
setup() {
const searchCity = ref('');
const weatherData = ref(null);
const loading = ref(false);
const errorMessage = ref('');

// 模拟天气数据映射（用于演示）
const mockIcons = { '晴': '☀️', '多云': '⛅', '阴': '☁️', '雨': '🌧️', '雪': '❄️' };

const getWeather = async () => {
if (!searchCity.value.trim()) return;

loading.value = true;
errorMessage.value = '';
weatherData.value = null;

try {
// [开发建议]
// 此处应替换为真实的接口请求，例如和风天气 (QWeather) 或 OpenWeatherMap
// const API_KEY = 'your_api_key';
// const response = await fetch(`https://devapi.qweather.com/v7/weather/now?location=${searchCity.value}&key=${API_KEY}`);
// const data = await response.json();

// 模拟 API 延迟
await new Promise(resolve => setTimeout(resolve, 800));

// 模拟数据结构拦截与拼装
if (searchCity.value.length > 10) {
throw new Error('未找到该城市信息');
}

const randomTemp = Math.floor(Math.random() * 30) + 5;
const descriptions = ['晴', '多云', '雨', '阴'];
const desc = descriptions[Math.floor(Math.random() * descriptions.length)];

weatherData.value = {
city: searchCity.value,
date: new Date().toLocaleDateString('zh-CN', { month: 'long', day: 'numeric', weekday: 'long' }),
temp: randomTemp,
feelsLike: randomTemp + (Math.floor(Math.random() * 4) - 2),
description: desc,
icon: mockIcons[desc],
humidity: Math.floor(Math.random() * 50) + 30,
windSpeed: Math.floor(Math.random() * 20) + 5,
visibility: Math.floor(Math.random() * 10) + 5
};
} catch (error) {
errorMessage.value = error.message || '获取天气信息失败，请稍后重试';
} finally {
loading.value = false;
}
};

// 初始加载默认城市
onMounted(() => {
searchCity.value = '北京';
getWeather();
});

return {
searchCity,
weatherData,
loading,
errorMessage,
getWeather
};
}
}).mount('#app');
</script>
</body>
</html>

slowgen

1 day ago

这个测试也太不严谨了。

开源模型的参数是有推荐的，不同的模型对于不同的任务场景，temperature 、top_p 、top_k 、min_p 、presence_penalty 、repetition_penalty 的数值都不同，你用网页版都不知道人家默认是针对什么场景配置的，做测试对比是要根据你自己的任务场景去设置的。

甚至是量化部署方案，比如同样 NVFP4 的量化，还要看用了什么数据集校准。

我就这么说吧，我本地部署的 MiniMax M2.7 （ nvidia 放出的 NVFP4 量化）和 Qwen 3.6 35B-A3B （ RedHatAI 放出的 NVFP4 量化）、Qwen 3.6 27B （ mlx-community 的 NVFP4 量化和 unsloth 的 UD + NVFP4 ），分别按照各模型文档的参数推荐来用对话模式按照你那一句话 prompt ，写出来的 html 都和你提到能上桌的模型都差不多。

junwind

1 day ago

@slowgen 我不管这那的，我只想知道我一句话的需求，谁做完的成品最完整。未来的 Ai 畅想不就是这种发展吗，比如生图，image2 出来，满足了我对于一句话生图结果的预期。这是之前用其它生图模型都无法达到的效果。我觉得未来的 AI 就是这样，没必要写各种专业的提示词，我就用人话，你给我出符合预期的结果，然后在这个符合预期的结果上精修。

mewking

1 day ago

@slowgen unsloth 的 UD + NVFP4 ？？这个没看到啊，只有一个 Qwen3.6-27B-UD-MLX-NVFP4 ，而且不明这东西到底跑在 mac 上还是黄卡上？？

slowgen

1 day ago

@mewking 就是这个啊 https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-NVFP4
从命名风格来说 UD 就是动态量化，带 MLX 的就是用 Apple 的 MLX 跑的，NVFP4 作为压缩保存的格式。

v400127

1 day ago

综合比较实用性和价格,不当花瓶,量大管饱,就只选 deepseek 4 了,其他的价格,我为啥选 kimi glm mimo 呢,他们的报价能和 gpt 对标吗

cskason

15h 48m ago

现阶段 GLM5.1 好比较好，刚开始使用 minimax2.7 的时候，觉得还不错，用了大半个月后经常超时，再过了一段时间发现降智到原来十分之一