Livid
288.74D
530.96D
V2EX  ›  Local LLM

DiffusionGemma

  •  
  •   Livid ·
    PRO
    · 1 day ago · 3320 views

    https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/

    在生成文本时,理论上可以比现在的版本快 4 倍。

    本地运行步骤:

    https://unsloth.ai/docs/models/diffusiongemma

    目前 V2EX Chat 用的模型就是 gemma4:26b 。

    https://edge.v2ex.com/chat

    27 replies    2026-06-11 23:05:34 +08:00
    Parva
        1
    Parva  
       21h 42m ago
    端侧模型和扩散 LLM 像是找到了彼此的最佳舞台。
    coefu
        2
    coefu  
       20h 43m ago
    qwen 这次估计要落后 Gemma 团队了,Gemma 总能整出一些新活儿。😂
    commoccoom
        3
    commoccoom  
       19h 11m ago
    Q4 模型都是 16G 的,8G 显存跑不动啊
    jackOff
        4
    jackOff  
       18h 46m ago
    这些模型如果可以 32G CPU 流畅跑就好了
    kennylam777
        5
    kennylam777  
       17h 54m ago
    @coefu 我倒希望 Qwen 繼續開源跟 Gemma 一拼, Google 沒對手的話就不會放新模型了

    正如以前用 RTX 5090 都沒有一個本地模型能 agentic coding, 大部分都倒在了第一個 failed tool call 上, 倒是 Qwen 3.5 27B 出來後才算有一個能用
    kennylam777
        6
    kennylam777  
       17h 45m ago
    不過我記得第一個實作 Diffusion Language Model 的是這個 HKU 團隊, 那時他們家的 Sudoku 的解題特別強。
    https://github.com/HKUNLP/DiffuLLaMA

    玩過 DiffuLLaMA Demo 很有趣, Diffsuion 文字輸出是先把句子長度固定, 然後內容再走出來, 先畫靶再射箭的感覺, 不是 Autoregressive 的書寫次序, 但那時字(token)蹦出來後就不會再動。

    這次 DiffusionGemma 更有趣的是內容還會在 render 過程中變動, 我倒期待 Llama-Server 的實作出來是如何的, 如果 Sudoku 強的話可能龍蝦一類 vision+computer use 的用途會有驚喜?
    drymonfidelia
        7
    drymonfidelia  
       17h 40m ago
    想知道 V2EX Chat 的版本是站长 self-hosted 的么
    crocoBaby
        8
    crocoBaby  
       17h 35m ago
    还不能生成图片或者视频
    Slengl
        9
    Slengl  
       17h 25m ago
    2 句话达到上限
    Livid
        10
    Livid  
    MOD
    OP
    PRO
       17h 21m ago
    @drymonfidelia DGX Spark
    BingoXuan
        11
    BingoXuan  
       17h 15m ago
    @coefu
    Qwen 感觉应该是放弃开源了,虽然 Gemma 开源比不上 Qwen ,但在现在这种环境下,真的是贵在坚持和创新

    @kennylam777
    现在 3.6 27B 还不错,但是怕是绝唱了
    zhaiduo
        12
    zhaiduo  
       16h 44m ago via Android
    如果 chat 搞成大模型中转站就好了哈哈
    kennylam777
        13
    kennylam777  
       16h 6m ago
    @BingoXuan Gemma 4 這次很給力吧, reddit 上不少人都同意文字類答案比 Qwen 3.6 好, Qwen 3.6 是英語及中文很強, 但 Gemma 4 的廣東話及繁體字比 Qwen 3.6 強超多, Gemma 4 31B 在 agentic coding 用廣東話對答如流, Qwen 3.6 就會用簡體中文標準漢語回應, 也有一些 benchmark 說 Gemma 4 31B 比 Qwen3.6 27B 在 coding planing 更細密。

    Qwen 3.6 是絶代的話就慘了, Google 不會放更好的模型出來, 畢竟 Qwen 還是很能打我也是 Gemma 4 及 Qwen 3.6 兩個模型都有在用。

    @Livid 怪不得會選 26B A4B MoE, memory bandwidth 擺在那 TPS 是壓力, 反而我好奇的是 Qwen 3.6 35B A3B 的簡中應該也很強, 速度更快, 選用 Gemma 4 26B A4B 的選因是?
    BingoXuan
        14
    BingoXuan  
       14h 14m ago
    @kennylam777
    我在 OpenRouter 测试时候,使用同样的 skill ,Gemma4 31B 不能一次完成任务,Qwen3.6 27B 反而可以。本地跑 27B Q6_K 质量不输 OpenRouter FP8 。未试过本地部署 Gemma 31B ,有空再测试一下。目前日常使用 PI+27B 体感上不输给 Codex 5.4 High 。本来还想开一个 Pro ,看来现在完全无必要。

    另外如果按你所说,那么 Gemma 31B 的表现可以推算出其本身是为了泛用而训练的。训练语料并没有偏重在 coding 方面。

    现在大厂都选择闭源来实现更高利润率,最近几个月开源模型越来越少。尤其是 3.7 系列推出那么久都没有任何开源模型就说明 3.6 27B 大概率绝唱。而且 0.8B/4B/9B 也没有后续了。AI 真实成本远比现在使用 coding plan 或者 api 更贵。开源沦为赚取名声的途径。
    coefu
        15
    coefu  
       14h 11m ago   ❤️ 1
    @BingoXuan
    @kennylam777

    qwen3.6 27B 是真正的能打,我现在日常主力了。能感觉到,这个模型之后,这个板块沉寂了很长一段时间,恐怕大家都是偷着乐的。


    27B 真正能打,是因为它在 27B 这样的参数下,能搞到惊人的 64 层 dense ,模型的宽和深,有个奇妙的组合甜点位。只顾宽不顾深,就只有广博知识面,但是缺乏逻辑深度和缜密,只知道夸夸其谈,经不起推敲。只有深度,没有宽度就是个诡辩的杠精。但是 27B 兼顾了知识面的广度和逻辑的深度,但是如果再增参数和深度,本地部署又失去了可能。巨大的参数所产生的 kvcache ,以及 agent 模式下 context 的反复进出,单卡带宽完全跟不上,就算是 gmem/umem 的容量够,attention 的 O(n²) 也是无解的。

    可能是绝唱,也可能是当下开源的极限。
    coefu
        16
    coefu  
       14h 9m ago
    @BingoXuan Gemma4 31B 擅长的是 stem 的理论逻辑。coding 确实不如 qwen3.6 27B 。
    coefu
        17
    coefu  
       14h 3m ago
    Diffusion 这条路,依然没有解决当前 LLM prefill 里 超长 context 说带来的 attention O(n²) 消耗。只是在 token generator 上做了加速的文章。但是当前 agent 模式的瓶颈,已经不在 token generator 。

    解决 prefill 的 attention O(n²) ,依然任重道远。 主要是信息论里,对 过去 context 的压缩 是否能保证完全无损,这是当前很长时间内的根本矛盾。
    commoccoom
        18
    commoccoom  
       14h 0m ago
    @coefu 啥配置能主力跑 Qwen3.6 27B
    coefu
        19
    coefu  
       13h 53m ago
    @commoccoom 如果你的经济阔绰,我推荐 NVIDIA RTX PRO 6000 Blackwell (96GB),虽然带宽只有 1.1TB/s ,但是由于 Nvidia cuda 的极致优化,prefill 依然很能打,最主要的是 kvcache ,模型本身大概 36G ,你可以有 60G 左右跑 context ,Q8 的情况下,263k 跑满,还能开 2 parallel 。

    如果你经济有限,我推荐 mac ultra ,可以是 64G ,但是 96G 或者 128G 更好。把 context 搞成 Q4 ,跑 263k 也是 ok 的。只是越往后越慢,但是依靠模型本身的能力,慢点也能完成任务。
    commoccoom
        20
    commoccoom  
       13h 50m ago
    @coefu 好的,感谢。
    kennylam777
        21
    kennylam777  
       13h 48m ago
    @BingoXuan 我是 Codex 及 Antigravity 雙持的, 都是 USD20 等級的套餐, 但自從我本地有 Qwen 3.6 27B (Q5_K_XL Weights, Q8 K/V, MTP)後, 有一次我兩家的 agent 都跑到 debug 一半沒了 quota 很焦慮。

    還好之前有練過用本地跑 VSCode Copilo 及 Claude Code, 拿 Qwen 3.6 27B 給我上還真的能把事情做好。

    這時候我就深深感受到這東西會減少人們對 Subscriptions 及 API 的依賴, 很佛心但也會影響利潤吧。
    kennylam777
        22
    kennylam777  
       13h 38m ago
    @commoccoom 我單張 RTX5090, Q3.6 27B Q5_K_XL 用以上配置能跑 context 102400, 56tps

    另外我還有兩張 RTX3090 的 NVLink 能跑 Gemma 4 31B Q8, F16 K/V, ctx 51200, 55-60tps, 但現在要買 3090 及它的 NVLink 應該不容易。

    聽說有人在淘寶魔改了 V100 能插 PCIe 及多卡 NVLink, 但這種魔改的東西除非你對 inference 很有經驗, 否則不建議用。也有些人用舊款 AMD MI50 32GB 去組多卡, 但好像 llama.cpp 沒直接支援要用改版的, 也不太建議用。

    RTX6000 Pro 的 96GB VRAM 及超大 bandwidth 肯定是單卡最強的民用產品

    32GB 的新品好像還有 Intel Arc Pro B70, 比 RTX5090 便宜不少, 但這個 llama.cpp 的支援可能不完整, vllm 倒是有 Intel 自己的版本有維護能配 Qwen 3.5
    commoccoom
        23
    commoccoom  
       13h 22m ago
    @kennylam777 没这么高的硬件,我得先去云服务商开个 GPU 云试试效果😂
    BingoXuan
        24
    BingoXuan  
       13h 13m ago
    @coefu
    但不得不说,阿里的确做出了很不一样的东西。27B 给人的感觉就是在知识面和逻辑和权重大小做了一个很好的平衡。而且训练时候加入 MTP 在本地部署极佳。同时也给人感觉出道即巅峰。这个板块沉寂另外一个原因可能大家有更多时间去做 harness ,而不是部署测试各种模型上。

    @kennylam777
    我给 Codex 5.4 High 和 27B 给出三个不同的 bug 。27B 可以找到两个(虽然费思考),但 Codex 反而职能找到 1 个。其实本地模型利好 Nvidia 这些硬件厂商,但 Nemotron 系列差强人意。我自己用 RTX Pro 4500 部署,Q6 加上 MTP 有 50tps 。日常使用来说非常流畅。唯一慢的地方是我。哈哈哈哈哈
    kennylam777
        25
    kennylam777  
       13h 3m ago
    @BingoXuan Nemotron Nano 還真的不太行, Ultra 出來了好像也不太有性價比, 550B 等級的中國模型比它強。

    btw, MTP 在 Coding agent 上加速效果挺明顯的, 我想是算 diff 一類能搬字過紙的任務上猜得到就能過, Gemma 4 31B Q4 在 5090 我試過能跑到最高 90tps, 反而 Qwen 3.6 27B 我都沒仔細看過最高 tps

    但真的要快的話, 把 Qwen 3.6 35B 灌下去, tokens 嘩啦嘩啦就跑一堆出來還算爽的, max tps 過 130, 簡單任務也算能用
    coefu
        26
    coefu  
       12h 45m ago
    @kennylam777 还是 你有钱啊。
    phinex
        27
    phinex  
       5h 9m ago
    主要是换了底层架构之后 对硬件性能要求没那么高了
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   958 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 54ms · UTC 20:14 · PVG 04:14 · LAX 13:14 · JFK 16:14
    ♥ Do have faith in what you're doing.