先抛个砖:GLM5.1 > deepseek v4 > minimax2.7 ≥ mimo v2.5 ≈ kimi2.6
以一个案例来分析这几个的能力:帮我生成一个天气查询H5应用 提示词就这一句,都一样。
glm5.1: https://imgchr.com/i/pehcWCR 天气温度假
kimi2.6:https://imgchr.com/i/pehczKf 天气温度真
minimax2.7:https://imgchr.com/i/pehcBvV 拉完了
mino v2.5 : 第一遍没有给我生成,换提示词:帮我开发一个天气查询H5应用。才继续生成:https://imgchr.com/i/pehgQIJ 天气温度假。 有一个背景下雨的效果
deepseek v4: https://imgchr.com/i/pehcgUJ 温度真
仅针对这个案例的评价:glm5.1,kimi2.6 可以, deepseek v4 ,mino v2.5 次之。 minimax2.7 什么玩意?
大家也可以自己测试下。
1
canyue7897 2 days ago via iPhone 我觉得 kimi 还可以哈?
没想到这么拉? |
2
onedge 2 days ago
GLM 5.1 > DS v4 = Kimi 2.6 > mimo v2.5 > minimax 2.7
|
3
cookii 2 days ago via Android minimax 不配上榜好吧,夸张点说 4B 模型水平
|
5
uqf0663 2 days ago
kimi 我会继续订阅,但是 minimax 就算了,订阅完用了三天我就放弃了,不会再考虑使用。
|
7
ayasealter570 2 days ago
minimax 官方订阅的极速版,智力低到没边了
|
8
huaweii 2 days ago via Android
@ayasealter570 有没有例子看看,好奇
|
10
junwind OP @canyue7897 实测的这个案例,kimi 还行,不过生成是很慢的
|
11
junwind OP @canyue7897 kimi 不拉,是我个人的武断,实测后还不错
|
12
drealism 2 days ago via Android
可以把 qwen 系列补一个进去么🤜🤛
|
13
ebushicao 2 days ago
每次有人说跑分能够说明能力,我就会举出 minimax2.7 这个例子,那真是连 skill 和 tool 都不一定会调用,某些时候我本地部署的 qwen3.5 9b 都比它强。
|
14
aes114514gcm 2 days ago
和我的体感比较接近,glm5.1 略强于 kimi2.6 ,
|
15
zenfsharp 2 days ago GLM5.1 > deepseek v4 > 其他,起码到这里是同意的。
我刚开了 opencode 的 Go 订阅,在 opencode-cli 里使用同样的 skill 、MCP 、Agent.md ,问 GLM 我项目里的一个业务逻辑,直接一次性揪出来了,而 DS 没有,反复提示了三次才找到。 |
16
zenfsharp 2 days ago
不知道各种公众号是有任务还是怎么回事,一个劲的鼓吹 deepseek v4 ,跟实际体验严重背离。
|
17
lukaktus6768 2 days ago 看到 glm 我就要踩一脚,买谁都不要买他
|
18
anmie 2 days ago @zenfsharp 自媒体不这么写没人看啊, 但是你看 Deepseek 官方就实在多了,官方在公众号里,明确说了模型在某些方面比 xx 模型要弱,而不是无脑鼓吹遥遥领先。
这么说把,做信息分享类的自媒体,有一个算一个,肯定会夹带私货,在我看来,有一个算一个都是傻逼。 而看自媒体说的就深信不疑的人也是傻逼。 我自始至终,从大模型刚能聊天,到现在 agentic ,Deepseek 虽然不是最强的那个,但是一直都是我的主力,不为别的,我坚定的站在这样一个不焦虑,不浮躁的人和公司这边。(而 minimax 我根本试都没试过,不感兴趣。) |
19
metalvest 2 days ago
GLM5.1 天气温度假,为什么排第一?
|
20
weilongs 2 days ago
minimax2.7 排不到那个位置.
|
21
Desiree 2 days ago
暂时只用过 Glm 跟 minimax2.7 挺垃圾的,glm 勉强能用,但是比 cc 跟 codex 还是差一大截,minimax2.7 是完全不能用
|
22
zzz123456qqq 2 days ago
啊
|
23
richardwong 2 days ago
GLM5.1 不支持多模态挺难受的
|
24
owt5008137 2 days ago via Android
@richardwong 官方送的视觉识别 mcp 可以勉强顶一顶。
|
25
Azmeont 2 days ago
GLM5.1 和 DSv4-Pro 体感都比 opus4.6 强,但 DSv4 胜在 1M 上下文
|
26
issakchill 2 days ago
看到 minimax 不上桌就放心了
|
27
Lighfer 2 days ago
不测一下 qwen3.6 27b 吗?据说编程能力也也很强?
|
28
xiaomushen 2 days ago
基本同意,今天高强度用 DeepSeek V4 Pro
|
29
xiangqiankan 2 days ago deepseekv4 只是编码方面的后训练不足,架构设计上这是唯一的真神,理论上是开源模型的天花板
|
30
mingtdlb 2 days ago
GLM 是写代码比较强吗?我感觉他 chat 有点拉
|
31
iamzz 1 day ago
难兄难弟。
|
32
shuiduoduo 1 day ago via iPhone
和 claude4.7 对比一下呢
|
33
passion336699 1 day ago
minimax 不做评价...
|
34
lizhesystem 1 day ago
minimax 确实拉,不在一桌,不过周末使用了 DeepSeekV4 Pro 确实超乎预期,如果暂时没有好用的模型我会优先选择用它。
|
35
Danswerme 1 day ago
@shuiduoduo Claude Opus 4.7 不用对比,现在是全球范围内断崖式领先。
|
36
aikilan 1 day ago
minimax 确实不行,之前自己写的应用去测试接入第三方 provider 的时候,用这家测试了下我一度怀疑是我自己的接入方式有问题
|
37
MagicLi 1 day ago
kimi 为啥我感觉非常不耐用呢。100 的尝鲜套餐。
|
38
junwind OP 目前国内 glm5.1 ,kimi2.6 ,dsv4 可以选择,哪个能订阅,哪个便宜就用哪个。dsv4 我看好后期上华为卡后,价格再降一大波,并且应该也不会有订阅售罄的烦恼。
|
39
goodryb 1 day ago
这个测试多少有点敷衍了,网页版都是聊天的,测试编码起码用个 CLI 试一试吧
|
40
Adyun 1 day ago
minimax 纯拉 29 元送了
|
41
ethanpeng 1 day ago
|
42
WashFreshFresh 1 day ago
@Danswerme #35 你是忘记加狗头了吗,不是默认都 4.6>4.7
|
43
mscsky 1 day ago
minimax 没算力了吧
|
44
hotbaidu 1 day ago
@zenfsharp opencode 的 Go 订阅 deepseek v4 是不是只有 flash 没有 pro ,我在其他平台测试 deepseek v4 flash 智力不如 kimi
|
45
mscsky 1 day ago
要比也是本地部署了比
|
46
Tink PRO minimax 真的是烂完了,问着问着给我爆乱码了
|
47
jlkm2010 1 day ago
GLM 5.1 >= DS v4 > Kimi 2.6 > minimax 2.7 > mimo v2.5
|
48
jimrok 1 day ago
minimax 确实弱智,以后可以从测评里面剔除掉。
|
50
brucedone 1 day ago
"不诱于誉,不恐于诽,率道而行,端然正己。" 就这个态度,做的事儿,这价格,就已经很顶了,编码不足人家自己也说了,不足就是不足,你也要让人家进步呀。
|
51
o99o 1 day ago
大家的 deepseek v4 是在 deepseek 自己家平台上订阅的么?感觉用的很快。10 块钱的 token 很快就没了。
|
52
fkdtz 1 day ago
在我印象里 minimax 效果还不错啊,甚至在打开这篇帖子之前我一直都这样以为,
怎么反差这么大?一直就这么拉吗?之前是营销号借着龙虾风无脑吹的吗? 有没有兄弟知道咋回事? |
54
coldle 1 day ago @fkdtz #52
minimax 一直狂蒸 claude ,在 minimax-m2.1 时代还能跟 glm-4.7 在某些场景互有来回,从 m2.5 开始就完全跟不上了,所谓的火只是卡在一个「效果比他好的模型参数大价格贵,参数比他小的模型效果比他差」的临界点,在养虾普遍 token 焦虑的时候搭了下顺风车 现在 deepseek-v4-flash 出来直接替换生态位,要多模态有 k2.6 ,要性价比有 v4f |
55
wwhc 1 day ago
楼主的测试有偏差,本地部署的 Qwen3.6 27B/35B 使用楼主的提示词都能生成达到楼主图中 GLM 的水准的代码渲染,本地部署的 gpt-oss 120B 倒真是惨不忍睹,生成的的代码渲染出的页面没法看
|
56
xixka 1 day ago
我自己的使用感受,Kimi 代码弱,glm 幻觉高,都只能是勉强
|
57
qxq94 1 day ago
Minimax2.7 确实一句提示词垃圾,得补充一次功能无法运行,UI 界面太丑了。生成的也就还能看
 |
58
litchinn 1 day ago
1M 上下文到底关不关键,在大型项目或长期开发中是否起关键作用呢?
|
59
Jiajin 1 day ago
|
60
coldle 1 day ago
@litchinn #58
注意力不严重丢失的话,读大项目非常有用,实打实的「大就是好」。分别用 ds 和 glm 读大型项目就知道了,ds 还在正常聊的时候 glm 已经流口水了( 不过 ds 编程能力本身可能没 glm 那么特化(也可能是后训练不足的缘故),落实到具体写代码场景反而不如注意力飞速丢失的 glm |
61
tangwz 1 day ago
我实测了 DeepSeek V4 ,整理来说也是第一梯队,不过看评分还是 GLM5.1 和 KIMI 2.6 略微领先。
参考: https://www.bilibili.com/video/BV1gSoUBYEdV/ |
62
Jiajin 1 day ago
@wwhc 核心问题是 codex 、cc 等工具内置了很多 agentic coding 的提示词,测试要控制变量。他是这个纯网页端测试。天然不适合这种任务。
|
64
lear7 1 day ago
个人认为 DeepSeek v4 Pro Max 能赶上 Sonnet 4.5 的效果,比 Sonnet 4.6 可能还差一点点。
至于其他国内大模型,我不用,浪费金钱是一回事,还浪费生命。 |
65
Jiajin 1 day ago
@junwind 我的意思是你应该在同一个 agentic 工具(比如 claude code )下测试不同的本地部署的模型。控制变量。网页版各家都有自己的不同的提示词,甚至还有降智、限流。
|
66
wwhc 1 day ago
|
68
ty29022 1 day ago
|
70
calpes 1 day ago
你们每天测的都是啥场景,都是一句话小需求吗?都不说 harness 的场景,就标准 spec 模式下涉及超过 5 个服务的需求,你们那 200k 的上下文能 plan 出来个正经东西吗? ds4 最屌的不就是这个注意力打折的不是很厉害的 1M 上下文吗
|
72
jaoyina 1 day ago
|
73
xiaomushen 1 day ago
@calpes 总不能让他们拿着正经项目去测试吧,哈哈哈
|
74
calpes 1 day ago
@xiaomushen 不看正经项目那不还是赛博斗蛐蛐吗?
|
75
xiaomushen 1 day ago
@calpes 不然呢?正经项目哪儿可能这么短时间,正经测一遍?
|
76
xzpjerry731 1 day ago via iPhone
Op 是在本地跑的吗
|
77
evilgod528 1 day ago
glm5.1 和 其它(目前后端领域使用下来的体会),希望 ds v4 快点优化上来,干掉 Z➗
|
78
justxwy 1 day ago
https://x.com/hantmango/status/2048308533477945366?s=20 我测下来是 kimi 和 ds v4 pro 比较好。
|
79
KingGaruda 1 day ago
我感觉这个测试场景有点草率。。至少在你的 claudeCode 里选定模型测试?感觉偏差源于官方优化。 我只是好奇正经自开发场景下 glm/kimi/ds 哪个比较合适。
|
80
loolac 1 day ago
这样儿比较没意义,信息供应都不一致,deepseek-v4 的数据都还是 2025 年 5 月前的。
感觉上模型能力越强幻觉越严重。kimi2.6 用的比较多,但是 deepseek-v4 感觉比 kimi2.6 好很多。 |
81
stdout 1 day ago
mimo v2.5 pro >= GLM 5.1 >= DS v4 pro >= kimi 2.6 > minimax 2.7 深度读代码找到 bug 解决 bug 的能力,写大量代码的话都不行。说实话 codex 真是免费给大家用的。codex100u 的性价比远超这些。国产还要加油啊
|
82
xFrye 1 day ago
对比之下 minimax 是路边的,官方的 kimi2.6 我觉得还不错,就是消耗有点快
|
84
phli 1 day ago
这是 gemini 3.1 pro 网页端生成的。
<!DOCTYPE html> <html lang="zh-CN"> <head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no"> <title>极简天气 H5</title> <script src="https://unpkg.com/vue@3/dist/vue.global.js"></script> <script src="https://cdn.tailwindcss.com"></script> <style> /* 隐藏滚动条但保留滚动功能 */ .no-scrollbar::-webkit-scrollbar { display: none; } .no-scrollbar { -ms-overflow-style: none; scrollbar-width: none; } </style> </head> <body class="bg-gradient-to-br from-blue-100 to-blue-300 min-h-screen flex items-center justify-center p-4"> <div id="app" class="bg-white/80 backdrop-blur-md rounded-3xl shadow-xl w-full max-w-sm p-6 overflow-hidden"> <div class="relative mb-6"> <input v-model="searchCity" @keyup.enter="getWeather" type="text" placeholder="输入城市名称,如:北京" class="w-full bg-white/90 px-4 py-3 rounded-xl shadow-sm focus:outline-none focus:ring-2 focus:ring-blue-400 transition-all text-gray-700" > <button @click="getWeather" class="absolute right-2 top-2 bottom-2 bg-blue-500 hover:bg-blue-600 text-white px-4 rounded-lg transition-colors font-medium" > 查询 </button> </div> <div v-if="loading" class="text-center py-10"> <div class="animate-spin rounded-full h-8 w-8 border-b-2 border-blue-500 mx-auto"></div> <p class="text-gray-500 mt-3 text-sm">正在获取天气数据...</p> </div> <div v-else-if="errorMessage" class="text-center py-8 text-red-500 bg-red-50 rounded-xl"> {{ errorMessage }} </div> <div v-else-if="weatherData" class="fade-in"> <div class="text-center mb-6"> <h2 class="text-3xl font-bold text-gray-800 tracking-wider">{{ weatherData.city }}</h2> <p class="text-gray-500 mt-1">{{ weatherData.date }}</p> </div> <div class="flex items-center justify-center mb-6"> <span class="text-6xl mr-4">{{ weatherData.icon }}</span> <div> <div class="text-5xl font-black text-gray-800">{{ weatherData.temp }}°C</div> <div class="text-xl text-gray-600 mt-1 font-medium">{{ weatherData.description }}</div> </div> </div> <div class="grid grid-cols-2 gap-4"> <div class="bg-white/60 p-3 rounded-xl flex items-center"> <span class="text-2xl mr-2">💧</span> <div> <div class="text-xs text-gray-500">湿度</div> <div class="font-bold text-gray-700">{{ weatherData.humidity }}%</div> </div> </div> <div class="bg-white/60 p-3 rounded-xl flex items-center"> <span class="text-2xl mr-2">💨</span> <div> <div class="text-xs text-gray-500">风速</div> <div class="font-bold text-gray-700">{{ weatherData.windSpeed }} km/h</div> </div> </div> <div class="bg-white/60 p-3 rounded-xl flex items-center"> <span class="text-2xl mr-2">🌡️</span> <div> <div class="text-xs text-gray-500">体感温度</div> <div class="font-bold text-gray-700">{{ weatherData.feelsLike }}°C</div> </div> </div> <div class="bg-white/60 p-3 rounded-xl flex items-center"> <span class="text-2xl mr-2">👁️</span> <div> <div class="text-xs text-gray-500">能见度</div> <div class="font-bold text-gray-700">{{ weatherData.visibility }} km</div> </div> </div> </div> </div> <div v-else class="text-center py-12 opacity-50"> <span class="text-6xl block mb-4">🌍</span> <p class="text-gray-500">搜索你关心的城市天气</p> </div> </div> <script> const { createApp, ref, onMounted } = Vue; createApp({ setup() { const searchCity = ref(''); const weatherData = ref(null); const loading = ref(false); const errorMessage = ref(''); // 模拟天气数据映射(用于演示) const mockIcons = { '晴': '☀️', '多云': '⛅', '阴': '☁️', '雨': '🌧️', '雪': '❄️' }; const getWeather = async () => { if (!searchCity.value.trim()) return; loading.value = true; errorMessage.value = ''; weatherData.value = null; try { // [开发建议] // 此处应替换为真实的接口请求,例如和风天气 (QWeather) 或 OpenWeatherMap // const API_KEY = 'your_api_key'; // const response = await fetch(`https://devapi.qweather.com/v7/weather/now?location=${searchCity.value}&key=${API_KEY}`); // const data = await response.json(); // 模拟 API 延迟 await new Promise(resolve => setTimeout(resolve, 800)); // 模拟数据结构拦截与拼装 if (searchCity.value.length > 10) { throw new Error('未找到该城市信息'); } const randomTemp = Math.floor(Math.random() * 30) + 5; const descriptions = ['晴', '多云', '雨', '阴']; const desc = descriptions[Math.floor(Math.random() * descriptions.length)]; weatherData.value = { city: searchCity.value, date: new Date().toLocaleDateString('zh-CN', { month: 'long', day: 'numeric', weekday: 'long' }), temp: randomTemp, feelsLike: randomTemp + (Math.floor(Math.random() * 4) - 2), description: desc, icon: mockIcons[desc], humidity: Math.floor(Math.random() * 50) + 30, windSpeed: Math.floor(Math.random() * 20) + 5, visibility: Math.floor(Math.random() * 10) + 5 }; } catch (error) { errorMessage.value = error.message || '获取天气信息失败,请稍后重试'; } finally { loading.value = false; } }; // 初始加载默认城市 onMounted(() => { searchCity.value = '北京'; getWeather(); }); return { searchCity, weatherData, loading, errorMessage, getWeather }; } }).mount('#app'); </script> </body> </html> |
85
slowgen 1 day ago 这个测试也太不严谨了。
开源模型的参数是有推荐的,不同的模型对于不同的任务场景,temperature 、top_p 、top_k 、min_p 、presence_penalty 、repetition_penalty 的数值都不同,你用网页版都不知道人家默认是针对什么场景配置的,做测试对比是要根据你自己的任务场景去设置的。 甚至是量化部署方案,比如同样 NVFP4 的量化,还要看用了什么数据集校准。 我就这么说吧,我本地部署的 MiniMax M2.7 ( nvidia 放出的 NVFP4 量化)和 Qwen 3.6 35B-A3B ( RedHatAI 放出的 NVFP4 量化)、Qwen 3.6 27B ( mlx-community 的 NVFP4 量化和 unsloth 的 UD + NVFP4 ),分别按照各模型文档的参数推荐来用对话模式按照你那一句话 prompt ,写出来的 html 都和你提到能上桌的模型都差不多。 |
86
junwind OP @slowgen 我不管这那的,我只想知道我一句话的需求,谁做完的成品最完整。未来的 Ai 畅想不就是这种发展吗,比如生图,image2 出来,满足了我对于一句话生图结果的预期。 这是之前用其它生图模型都无法达到的效果。 我觉得未来的 AI 就是这样,没必要写各种专业的提示词,我就用人话,你给我出符合预期的结果,然后在这个符合预期的结果上精修。
|
87
mewking 1 day ago
@slowgen unsloth 的 UD + NVFP4 ??这个没看到啊,只有一个 Qwen3.6-27B-UD-MLX-NVFP4 ,而且不明这东西到底跑在 mac 上还是黄卡上??
|
88
slowgen 1 day ago
@mewking 就是这个啊 https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-NVFP4
从命名风格来说 UD 就是动态量化,带 MLX 的就是用 Apple 的 MLX 跑的,NVFP4 作为压缩保存的格式。 |
89
v400127 1 day ago
综合比较实用性和价格,不当花瓶,量大管饱,就只选 deepseek 4 了,其他的价格,我为啥选 kimi glm mimo 呢,他们的报价能和 gpt 对标吗
|
90
cskason 15h 48m ago
现阶段 GLM5.1 好比较好,刚开始使用 minimax2.7 的时候,觉得还不错,用了大半个月后经常超时,再过了一段时间发现降智到原来十分之一
|