有一台 16 寸 m1max 64g+1T 满 GPU 的 MacBook Pro 适合部署哪个本地模型

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

配置为 m1max 64g+1T ，最近搞了个小小龙虾，消耗的 token 太快了，打算部署各本地模型，一来了解了解，而来是想做下简单的翻译、文档处理的工作。能有合适的本地模型吗？

10 replies • 2026-04-30 23:06:45 +08:00

zenfsharp

22h 14m ago

Gemma4-31b-it-q8_0 ，记得开满 256Context 窗口，也用 Q8 质量压缩。

huaweii

22h 13m ago via Android

qwen3.6 系列，你 64gb 的选择挺多的。你去 hf 上把你的型号输入进去让他给你选个合适的压缩模型就行

xFrye

22h 10m ago

sentinelK

22h 3m ago

mlx 的 qwen3.6-35B-A3B 试试看

alangz

21h 59m ago

@zenfsharp 好的，我试试
@huaweii 多谢，我去研究。
@xFrye 我试试看，多谢
@sentinelK 我看下，多谢

rrubick

21h 37m ago via iPhone

用 LM sutio ，它会根据你的内存大小标记合适的模型。注意由于模型需要常驻内存，不要卡着上限

rrubick

21h 35m ago via iPhone

@rrubick
typo：LM sutio —> LM Studio

diudiuu

20h 56m ago

ahdw

16h 17m ago

建议看看 oMLX 的社区评测，不要用 llama.cpp ，浪费苹果硬件

alangz

14h 58m ago

@rrubick 好的，感谢
@diudiuu 这个确实更方便些，多谢
@ahdw 我去看看