V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
junwind
V2EX  ›  程序员

glm5.1, kimi2.6, minimax2.7, mimo v2.5, deepseek v4,编程能力上的排名如何?

  •  3
     
  •   junwind · 2 days ago · 9193 views

    先抛个砖:GLM5.1 > deepseek v4 > minimax2.7 ≥ mimo v2.5 ≈ kimi2.6

    Supplement 1  ·  2 days ago

    以一个案例来分析这几个的能力:帮我生成一个天气查询H5应用 提示词就这一句,都一样。

    glm5.1: https://imgchr.com/i/pehcWCR 天气温度假

    kimi2.6:https://imgchr.com/i/pehczKf 天气温度真

    minimax2.7:https://imgchr.com/i/pehcBvV 拉完了

    mino v2.5 : 第一遍没有给我生成,换提示词:帮我开发一个天气查询H5应用。才继续生成:https://imgchr.com/i/pehgQIJ 天气温度假。 有一个背景下雨的效果

    deepseek v4: https://imgchr.com/i/pehcgUJ 温度真

    仅针对这个案例的评价:glm5.1,kimi2.6 可以, deepseek v4 ,mino v2.5 次之。 minimax2.7 什么玩意?

    大家也可以自己测试下。

    Supplement 2  ·  2 days ago
    根据案例实测,纠正我之前的排名:glm5.7 >= kimi2.6 >= deepseek v4 > mimo v2.5
    附:minimax 不配上桌。
    Supplement 4  ·  2 days ago
    接评论区的要求,增加 qwen
    Qwen3.5 : https://pic1.imgdb.cn/item/69eddd196dcdaf678a8bc75c.png 和 minimax 一样,拉。
    Qwen3.6-plus: https://pic1.imgdb.cn/item/69edddbc6dcdaf678a8bc7d4.png
    Qwen3-coder 模式: https://pic1.imgdb.cn/item/69eddeb36dcdaf678a8bc93c.png
    这次的案例实测,都是用的官网的网页版,使用最新的模型测试。

    其它的模型,大家感兴趣的,可以自己测试一下。

    总结:国产模型第一梯队 glm ,kimi ,第二梯队:deepseek ,mimo , 第三梯队:qwen ,minimax 。
    Supplement 5  ·  1 day ago
    Claude4.6 ,4.7 ,gpt5.5 ,Gemini3.1 ,大家可以自行测试,我这里暂时只测试国产的几个编程中主流的大模型。
    90 replies    2026-04-28 11:01:48 +08:00
    canyue7897
        1
    canyue7897  
       2 days ago via iPhone   ❤️ 1
    我觉得 kimi 还可以哈?
    没想到这么拉?
    onedge
        2
    onedge  
       2 days ago
    GLM 5.1 > DS v4 = Kimi 2.6 > mimo v2.5 > minimax 2.7
    cookii
        3
    cookii  
       2 days ago via Android   ❤️ 2
    minimax 不配上榜好吧,夸张点说 4B 模型水平
    BestEicky
        4
    BestEicky  
       2 days ago   ❤️ 2
    @cookii 说是 4B 模型都抬举它了,应该是 SB 模型水平吧
    uqf0663
        5
    uqf0663  
       2 days ago
    kimi 我会继续订阅,但是 minimax 就算了,订阅完用了三天我就放弃了,不会再考虑使用。
    onedge
        6
    onedge  
       2 days ago
    @uqf0663 minimax 已经完全龙虾了,m2.5 刚出我还觉得能力可以的,2.7 真的废了
    ayasealter570
        7
    ayasealter570  
       2 days ago
    minimax 官方订阅的极速版,智力低到没边了
    huaweii
        8
    huaweii  
       2 days ago via Android
    @ayasealter570 有没有例子看看,好奇
    uqf0663
        9
    uqf0663  
       2 days ago
    @onedge 我就是用这龙虾的,m2.7 真的是连应付龙虾基本运行都有坑,目前我的龙虾只有 k2.6 勉强马马虎虎能凑合用。
    junwind
        10
    junwind  
    OP
       2 days ago
    @canyue7897 实测的这个案例,kimi 还行,不过生成是很慢的
    junwind
        11
    junwind  
    OP
       2 days ago
    @canyue7897 kimi 不拉,是我个人的武断,实测后还不错
    drealism
        12
    drealism  
       2 days ago via Android
    可以把 qwen 系列补一个进去么🤜🤛
    ebushicao
        13
    ebushicao  
       2 days ago
    每次有人说跑分能够说明能力,我就会举出 minimax2.7 这个例子,那真是连 skill 和 tool 都不一定会调用,某些时候我本地部署的 qwen3.5 9b 都比它强。
    aes114514gcm
        14
    aes114514gcm  
       2 days ago
    和我的体感比较接近,glm5.1 略强于 kimi2.6 ,
    zenfsharp
        15
    zenfsharp  
       2 days ago   ❤️ 1
    GLM5.1 > deepseek v4 > 其他,起码到这里是同意的。
    我刚开了 opencode 的 Go 订阅,在 opencode-cli 里使用同样的 skill 、MCP 、Agent.md ,问 GLM 我项目里的一个业务逻辑,直接一次性揪出来了,而 DS 没有,反复提示了三次才找到。
    zenfsharp
        16
    zenfsharp  
       2 days ago
    不知道各种公众号是有任务还是怎么回事,一个劲的鼓吹 deepseek v4 ,跟实际体验严重背离。
    lukaktus6768
        17
    lukaktus6768  
       2 days ago   ❤️ 1
    看到 glm 我就要踩一脚,买谁都不要买他
    anmie
        18
    anmie  
       2 days ago   ❤️ 12
    @zenfsharp 自媒体不这么写没人看啊, 但是你看 Deepseek 官方就实在多了,官方在公众号里,明确说了模型在某些方面比 xx 模型要弱,而不是无脑鼓吹遥遥领先。
    这么说把,做信息分享类的自媒体,有一个算一个,肯定会夹带私货,在我看来,有一个算一个都是傻逼。 而看自媒体说的就深信不疑的人也是傻逼。

    我自始至终,从大模型刚能聊天,到现在 agentic ,Deepseek 虽然不是最强的那个,但是一直都是我的主力,不为别的,我坚定的站在这样一个不焦虑,不浮躁的人和公司这边。(而 minimax 我根本试都没试过,不感兴趣。)
    metalvest
        19
    metalvest  
       2 days ago
    GLM5.1 天气温度假,为什么排第一?
    weilongs
        20
    weilongs  
       2 days ago
    minimax2.7 排不到那个位置.
    Desiree
        21
    Desiree  
       2 days ago
    暂时只用过 Glm 跟 minimax2.7 挺垃圾的,glm 勉强能用,但是比 cc 跟 codex 还是差一大截,minimax2.7 是完全不能用
    zzz123456qqq
        22
    zzz123456qqq  
       2 days ago
    richardwong
        23
    richardwong  
       2 days ago
    GLM5.1 不支持多模态挺难受的
    owt5008137
        24
    owt5008137  
       2 days ago via Android
    @richardwong 官方送的视觉识别 mcp 可以勉强顶一顶。
    Azmeont
        25
    Azmeont  
       2 days ago
    GLM5.1 和 DSv4-Pro 体感都比 opus4.6 强,但 DSv4 胜在 1M 上下文
    issakchill
        26
    issakchill  
       2 days ago
    看到 minimax 不上桌就放心了
    Lighfer
        27
    Lighfer  
       2 days ago
    不测一下 qwen3.6 27b 吗?据说编程能力也也很强?
    xiaomushen
        28
    xiaomushen  
       2 days ago
    基本同意,今天高强度用 DeepSeek V4 Pro
    xiangqiankan
        29
    xiangqiankan  
       2 days ago   ❤️ 2
    deepseekv4 只是编码方面的后训练不足,架构设计上这是唯一的真神,理论上是开源模型的天花板
    mingtdlb
        30
    mingtdlb  
       2 days ago
    GLM 是写代码比较强吗?我感觉他 chat 有点拉
    iamzz
        31
    iamzz  
       1 day ago
    难兄难弟。
    shuiduoduo
        32
    shuiduoduo  
       1 day ago via iPhone
    和 claude4.7 对比一下呢
    passion336699
        33
    passion336699  
       1 day ago
    minimax 不做评价...
    lizhesystem
        34
    lizhesystem  
       1 day ago
    minimax 确实拉,不在一桌,不过周末使用了 DeepSeekV4 Pro 确实超乎预期,如果暂时没有好用的模型我会优先选择用它。
    Danswerme
        35
    Danswerme  
       1 day ago
    @shuiduoduo Claude Opus 4.7 不用对比,现在是全球范围内断崖式领先。
    aikilan
        36
    aikilan  
       1 day ago
    minimax 确实不行,之前自己写的应用去测试接入第三方 provider 的时候,用这家测试了下我一度怀疑是我自己的接入方式有问题
    MagicLi
        37
    MagicLi  
       1 day ago
    kimi 为啥我感觉非常不耐用呢。100 的尝鲜套餐。
    junwind
        38
    junwind  
    OP
       1 day ago
    目前国内 glm5.1 ,kimi2.6 ,dsv4 可以选择,哪个能订阅,哪个便宜就用哪个。dsv4 我看好后期上华为卡后,价格再降一大波,并且应该也不会有订阅售罄的烦恼。
    goodryb
        39
    goodryb  
       1 day ago
    这个测试多少有点敷衍了,网页版都是聊天的,测试编码起码用个 CLI 试一试吧
    Adyun
        40
    Adyun  
       1 day ago
    minimax 纯拉 29 元送了
    ethanpeng
        41
    ethanpeng  
       1 day ago
    codex 5.5 xhigh


    思考过程:
    WashFreshFresh
        42
    WashFreshFresh  
       1 day ago
    @Danswerme #35 你是忘记加狗头了吗,不是默认都 4.6>4.7
    mscsky
        43
    mscsky  
       1 day ago
    minimax 没算力了吧
    hotbaidu
        44
    hotbaidu  
       1 day ago
    @zenfsharp opencode 的 Go 订阅 deepseek v4 是不是只有 flash 没有 pro ,我在其他平台测试 deepseek v4 flash 智力不如 kimi
    mscsky
        45
    mscsky  
       1 day ago
    要比也是本地部署了比
    Tink
        46
    Tink  
    PRO
       1 day ago
    minimax 真的是烂完了,问着问着给我爆乱码了
    jlkm2010
        47
    jlkm2010  
       1 day ago
    GLM 5.1 >= DS v4 > Kimi 2.6 > minimax 2.7 > mimo v2.5
    jimrok
        48
    jimrok  
       1 day ago
    minimax 确实弱智,以后可以从测评里面剔除掉。
    fkdtz
        49
    fkdtz  
       1 day ago
    @BestEicky 兄弟心直口快
    brucedone
        50
    brucedone  
       1 day ago
    "不诱于誉,不恐于诽,率道而行,端然正己。" 就这个态度,做的事儿,这价格,就已经很顶了,编码不足人家自己也说了,不足就是不足,你也要让人家进步呀。
    o99o
        51
    o99o  
       1 day ago
    大家的 deepseek v4 是在 deepseek 自己家平台上订阅的么?感觉用的很快。10 块钱的 token 很快就没了。
    fkdtz
        52
    fkdtz  
       1 day ago
    在我印象里 minimax 效果还不错啊,甚至在打开这篇帖子之前我一直都这样以为,
    怎么反差这么大?一直就这么拉吗?之前是营销号借着龙虾风无脑吹的吗?
    有没有兄弟知道咋回事?
    zenfsharp
        53
    zenfsharp  
       1 day ago   ❤️ 1
    @hotbaidu #44 有的兄弟,pro 和 flash 都有的。
    coldle
        54
    coldle  
       1 day ago   ❤️ 3
    @fkdtz #52
    minimax 一直狂蒸 claude ,在 minimax-m2.1 时代还能跟 glm-4.7 在某些场景互有来回,从 m2.5 开始就完全跟不上了,所谓的火只是卡在一个「效果比他好的模型参数大价格贵,参数比他小的模型效果比他差」的临界点,在养虾普遍 token 焦虑的时候搭了下顺风车

    现在 deepseek-v4-flash 出来直接替换生态位,要多模态有 k2.6 ,要性价比有 v4f
    wwhc
        55
    wwhc  
       1 day ago
    楼主的测试有偏差,本地部署的 Qwen3.6 27B/35B 使用楼主的提示词都能生成达到楼主图中 GLM 的水准的代码渲染,本地部署的 gpt-oss 120B 倒真是惨不忍睹,生成的的代码渲染出的页面没法看
    xixka
        56
    xixka  
       1 day ago
    我自己的使用感受,Kimi 代码弱,glm 幻觉高,都只能是勉强
    qxq94
        57
    qxq94  
       1 day ago
    Minimax2.7 确实一句提示词垃圾,得补充一次功能无法运行,UI 界面太丑了。生成的也就还能看
    ![MB7Ej2nAcUPxj3GF0puqDXtngr3u720m.gif]( https://cdn.nodeimage.com/i/MB7Ej2nAcUPxj3GF0puqDXtngr3u720m.gif)
    litchinn
        58
    litchinn  
       1 day ago
    1M 上下文到底关不关键,在大型项目或长期开发中是否起关键作用呢?
    Jiajin
        59
    Jiajin  
       1 day ago
    本地部署的 qwen3.6-27B-FP8
    cli 工具:claude code


    温度用的真实接口,检索城市有问题,但是定位自己的位置是完全正确的,温度显示也没问题。

    ![天气]( )
    coldle
        60
    coldle  
       1 day ago
    @litchinn #58
    注意力不严重丢失的话,读大项目非常有用,实打实的「大就是好」。分别用 ds 和 glm 读大型项目就知道了,ds 还在正常聊的时候 glm 已经流口水了(

    不过 ds 编程能力本身可能没 glm 那么特化(也可能是后训练不足的缘故),落实到具体写代码场景反而不如注意力飞速丢失的 glm
    tangwz
        61
    tangwz  
       1 day ago
    我实测了 DeepSeek V4 ,整理来说也是第一梯队,不过看评分还是 GLM5.1 和 KIMI 2.6 略微领先。

    参考: https://www.bilibili.com/video/BV1gSoUBYEdV/
    Jiajin
        62
    Jiajin  
       1 day ago
    @wwhc 核心问题是 codex 、cc 等工具内置了很多 agentic coding 的提示词,测试要控制变量。他是这个纯网页端测试。天然不适合这种任务。
    junwind
        63
    junwind  
    OP
       1 day ago
    @Jiajin 那你又搞错了,正是在这种都不依赖别的工具下测试,才能体现模型本身的底色。
    lear7
        64
    lear7  
       1 day ago
    个人认为 DeepSeek v4 Pro Max 能赶上 Sonnet 4.5 的效果,比 Sonnet 4.6 可能还差一点点。

    至于其他国内大模型,我不用,浪费金钱是一回事,还浪费生命。
    Jiajin
        65
    Jiajin  
       1 day ago
    @junwind 我的意思是你应该在同一个 agentic 工具(比如 claude code )下测试不同的本地部署的模型。控制变量。网页版各家都有自己的不同的提示词,甚至还有降智、限流。
    wwhc
        66
    wwhc  
       1 day ago
    @Jiajin
    @junwind
    不依赖别的工具,本地部署的 Qwen3.6 27B/35B 也能达到 GLM 的水准当使用“帮我生成一个天气查询 H5 应用”这个提示词
    binaryify
        67
    binaryify  
       1 day ago
    @junwind #10 kimi 白天限速,晚上飞快
    ty29022
        68
    ty29022  
       1 day ago
    同意 minimax 是坨屎的结论

    一句话的提示词, 生成一个前端页面, 用来评估编程性能, 是不是有些片面呢

    hotbaidu
        69
    hotbaidu  
       1 day ago
    @zenfsharp 那我也去订阅试试,昨天只体验 v4 flash 效果不好
    calpes
        70
    calpes  
       1 day ago
    你们每天测的都是啥场景,都是一句话小需求吗?都不说 harness 的场景,就标准 spec 模式下涉及超过 5 个服务的需求,你们那 200k 的上下文能 plan 出来个正经东西吗? ds4 最屌的不就是这个注意力打折的不是很厉害的 1M 上下文吗
    jaoyina
        71
    jaoyina  
       1 day ago
    @zenfsharp

    deepseek 有国家战略意义,
    jaoyina
        72
    jaoyina  
       1 day ago
    @richardwong

    glm 的策略是不同模态用分开的模型,我记得官网有说明,它另外有个带名称里 v 的模型。
    xiaomushen
        73
    xiaomushen  
       1 day ago
    @calpes 总不能让他们拿着正经项目去测试吧,哈哈哈
    calpes
        74
    calpes  
       1 day ago
    @xiaomushen 不看正经项目那不还是赛博斗蛐蛐吗?
    xiaomushen
        75
    xiaomushen  
       1 day ago
    @calpes 不然呢?正经项目哪儿可能这么短时间,正经测一遍?
    xzpjerry731
        76
    xzpjerry731  
       1 day ago via iPhone
    Op 是在本地跑的吗
    evilgod528
        77
    evilgod528  
       1 day ago
    glm5.1 和 其它(目前后端领域使用下来的体会),希望 ds v4 快点优化上来,干掉 Z➗
    justxwy
        78
    justxwy  
       1 day ago
    https://x.com/hantmango/status/2048308533477945366?s=20 我测下来是 kimi 和 ds v4 pro 比较好。
    KingGaruda
        79
    KingGaruda  
       1 day ago
    我感觉这个测试场景有点草率。。至少在你的 claudeCode 里选定模型测试?感觉偏差源于官方优化。 我只是好奇正经自开发场景下 glm/kimi/ds 哪个比较合适。
    loolac
        80
    loolac  
       1 day ago
    这样儿比较没意义,信息供应都不一致,deepseek-v4 的数据都还是 2025 年 5 月前的。

    感觉上模型能力越强幻觉越严重。kimi2.6 用的比较多,但是 deepseek-v4 感觉比 kimi2.6 好很多。
    stdout
        81
    stdout  
       1 day ago
    mimo v2.5 pro >= GLM 5.1 >= DS v4 pro >= kimi 2.6 > minimax 2.7 深度读代码找到 bug 解决 bug 的能力,写大量代码的话都不行。说实话 codex 真是免费给大家用的。codex100u 的性价比远超这些。国产还要加油啊
    xFrye
        82
    xFrye  
       1 day ago
    对比之下 minimax 是路边的,官方的 kimi2.6 我觉得还不错,就是消耗有点快
    kashao
        83
    kashao  
       1 day ago
    @stdout mimo V2.5 pro 的上下文记忆打折不,我记得比 ds V4pro 多了多模态,但是 Token Plan 确实小贵
    phli
        84
    phli  
       1 day ago
    这是 gemini 3.1 pro 网页端生成的。
    <!DOCTYPE html>
    <html lang="zh-CN">
    <head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no">
    <title>极简天气 H5</title>
    <script src="https://unpkg.com/vue@3/dist/vue.global.js"></script>
    <script src="https://cdn.tailwindcss.com"></script>
    <style>
    /* 隐藏滚动条但保留滚动功能 */
    .no-scrollbar::-webkit-scrollbar {
    display: none;
    }
    .no-scrollbar {
    -ms-overflow-style: none;
    scrollbar-width: none;
    }
    </style>
    </head>
    <body class="bg-gradient-to-br from-blue-100 to-blue-300 min-h-screen flex items-center justify-center p-4">

    <div id="app" class="bg-white/80 backdrop-blur-md rounded-3xl shadow-xl w-full max-w-sm p-6 overflow-hidden">
    <div class="relative mb-6">
    <input
    v-model="searchCity"
    @keyup.enter="getWeather"
    type="text"
    placeholder="输入城市名称,如:北京"
    class="w-full bg-white/90 px-4 py-3 rounded-xl shadow-sm focus:outline-none focus:ring-2 focus:ring-blue-400 transition-all text-gray-700"
    >
    <button
    @click="getWeather"
    class="absolute right-2 top-2 bottom-2 bg-blue-500 hover:bg-blue-600 text-white px-4 rounded-lg transition-colors font-medium"
    >
    查询
    </button>
    </div>

    <div v-if="loading" class="text-center py-10">
    <div class="animate-spin rounded-full h-8 w-8 border-b-2 border-blue-500 mx-auto"></div>
    <p class="text-gray-500 mt-3 text-sm">正在获取天气数据...</p>
    </div>

    <div v-else-if="errorMessage" class="text-center py-8 text-red-500 bg-red-50 rounded-xl">
    {{ errorMessage }}
    </div>

    <div v-else-if="weatherData" class="fade-in">
    <div class="text-center mb-6">
    <h2 class="text-3xl font-bold text-gray-800 tracking-wider">{{ weatherData.city }}</h2>
    <p class="text-gray-500 mt-1">{{ weatherData.date }}</p>
    </div>

    <div class="flex items-center justify-center mb-6">
    <span class="text-6xl mr-4">{{ weatherData.icon }}</span>
    <div>
    <div class="text-5xl font-black text-gray-800">{{ weatherData.temp }}°C</div>
    <div class="text-xl text-gray-600 mt-1 font-medium">{{ weatherData.description }}</div>
    </div>
    </div>

    <div class="grid grid-cols-2 gap-4">
    <div class="bg-white/60 p-3 rounded-xl flex items-center">
    <span class="text-2xl mr-2">💧</span>
    <div>
    <div class="text-xs text-gray-500">湿度</div>
    <div class="font-bold text-gray-700">{{ weatherData.humidity }}%</div>
    </div>
    </div>
    <div class="bg-white/60 p-3 rounded-xl flex items-center">
    <span class="text-2xl mr-2">💨</span>
    <div>
    <div class="text-xs text-gray-500">风速</div>
    <div class="font-bold text-gray-700">{{ weatherData.windSpeed }} km/h</div>
    </div>
    </div>
    <div class="bg-white/60 p-3 rounded-xl flex items-center">
    <span class="text-2xl mr-2">🌡️</span>
    <div>
    <div class="text-xs text-gray-500">体感温度</div>
    <div class="font-bold text-gray-700">{{ weatherData.feelsLike }}°C</div>
    </div>
    </div>
    <div class="bg-white/60 p-3 rounded-xl flex items-center">
    <span class="text-2xl mr-2">👁️</span>
    <div>
    <div class="text-xs text-gray-500">能见度</div>
    <div class="font-bold text-gray-700">{{ weatherData.visibility }} km</div>
    </div>
    </div>
    </div>
    </div>

    <div v-else class="text-center py-12 opacity-50">
    <span class="text-6xl block mb-4">🌍</span>
    <p class="text-gray-500">搜索你关心的城市天气</p>
    </div>
    </div>

    <script>
    const { createApp, ref, onMounted } = Vue;

    createApp({
    setup() {
    const searchCity = ref('');
    const weatherData = ref(null);
    const loading = ref(false);
    const errorMessage = ref('');

    // 模拟天气数据映射(用于演示)
    const mockIcons = { '晴': '☀️', '多云': '⛅', '阴': '☁️', '雨': '🌧️', '雪': '❄️' };

    const getWeather = async () => {
    if (!searchCity.value.trim()) return;

    loading.value = true;
    errorMessage.value = '';
    weatherData.value = null;

    try {
    // [开发建议]
    // 此处应替换为真实的接口请求,例如和风天气 (QWeather) 或 OpenWeatherMap
    // const API_KEY = 'your_api_key';
    // const response = await fetch(`https://devapi.qweather.com/v7/weather/now?location=${searchCity.value}&key=${API_KEY}`);
    // const data = await response.json();

    // 模拟 API 延迟
    await new Promise(resolve => setTimeout(resolve, 800));

    // 模拟数据结构拦截与拼装
    if (searchCity.value.length > 10) {
    throw new Error('未找到该城市信息');
    }

    const randomTemp = Math.floor(Math.random() * 30) + 5;
    const descriptions = ['晴', '多云', '雨', '阴'];
    const desc = descriptions[Math.floor(Math.random() * descriptions.length)];

    weatherData.value = {
    city: searchCity.value,
    date: new Date().toLocaleDateString('zh-CN', { month: 'long', day: 'numeric', weekday: 'long' }),
    temp: randomTemp,
    feelsLike: randomTemp + (Math.floor(Math.random() * 4) - 2),
    description: desc,
    icon: mockIcons[desc],
    humidity: Math.floor(Math.random() * 50) + 30,
    windSpeed: Math.floor(Math.random() * 20) + 5,
    visibility: Math.floor(Math.random() * 10) + 5
    };
    } catch (error) {
    errorMessage.value = error.message || '获取天气信息失败,请稍后重试';
    } finally {
    loading.value = false;
    }
    };

    // 初始加载默认城市
    onMounted(() => {
    searchCity.value = '北京';
    getWeather();
    });

    return {
    searchCity,
    weatherData,
    loading,
    errorMessage,
    getWeather
    };
    }
    }).mount('#app');
    </script>
    </body>
    </html>
    slowgen
        85
    slowgen  
       1 day ago   ❤️ 1
    这个测试也太不严谨了。

    开源模型的参数是有推荐的,不同的模型对于不同的任务场景,temperature 、top_p 、top_k 、min_p 、presence_penalty 、repetition_penalty 的数值都不同,你用网页版都不知道人家默认是针对什么场景配置的,做测试对比是要根据你自己的任务场景去设置的。

    甚至是量化部署方案,比如同样 NVFP4 的量化,还要看用了什么数据集校准。

    我就这么说吧,我本地部署的 MiniMax M2.7 ( nvidia 放出的 NVFP4 量化)和 Qwen 3.6 35B-A3B ( RedHatAI 放出的 NVFP4 量化)、Qwen 3.6 27B ( mlx-community 的 NVFP4 量化和 unsloth 的 UD + NVFP4 ),分别按照各模型文档的参数推荐来用对话模式按照你那一句话 prompt ,写出来的 html 都和你提到能上桌的模型都差不多。
    junwind
        86
    junwind  
    OP
       1 day ago
    @slowgen 我不管这那的,我只想知道我一句话的需求,谁做完的成品最完整。未来的 Ai 畅想不就是这种发展吗,比如生图,image2 出来,满足了我对于一句话生图结果的预期。 这是之前用其它生图模型都无法达到的效果。 我觉得未来的 AI 就是这样,没必要写各种专业的提示词,我就用人话,你给我出符合预期的结果,然后在这个符合预期的结果上精修。
    mewking
        87
    mewking  
       1 day ago
    @slowgen unsloth 的 UD + NVFP4 ??这个没看到啊,只有一个 Qwen3.6-27B-UD-MLX-NVFP4 ,而且不明这东西到底跑在 mac 上还是黄卡上??
    slowgen
        88
    slowgen  
       1 day ago
    @mewking 就是这个啊 https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-NVFP4
    从命名风格来说 UD 就是动态量化,带 MLX 的就是用 Apple 的 MLX 跑的,NVFP4 作为压缩保存的格式。
    v400127
        89
    v400127  
       1 day ago
    综合比较实用性和价格,不当花瓶,量大管饱,就只选 deepseek 4 了,其他的价格,我为啥选 kimi glm mimo 呢,他们的报价能和 gpt 对标吗
    cskason
        90
    cskason  
       15h 48m ago
    现阶段 GLM5.1 好比较好,刚开始使用 minimax2.7 的时候,觉得还不错,用了大半个月后经常超时,再过了一段时间发现降智到原来十分之一
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1051 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 165ms · UTC 18:50 · PVG 02:50 · LAX 11:50 · JFK 14:50
    ♥ Do have faith in what you're doing.