配置为 m1max 64g+1T ,最近搞了个小小龙虾,消耗的 token 太快了,打算部署各本地模型,一来了解了解,而来是想做下简单的翻译、文档处理的工作。能有合适的本地模型吗?
1
zenfsharp 22h 14m ago
Gemma4-31b-it-q8_0 ,记得开满 256Context 窗口,也用 Q8 质量压缩。
|
2
huaweii 22h 13m ago via Android
qwen3.6 系列,你 64gb 的选择挺多的。你去 hf 上把你的型号输入进去让他给你选个合适的压缩模型就行
|
3
xFrye 22h 10m ago
https://ollama.com/blog/mlx 看看这个合适不
|
4
sentinelK 22h 3m ago
mlx 的 qwen3.6-35B-A3B 试试看
|
6
rrubick 21h 37m ago via iPhone
用 LM sutio ,它会根据你的内存大小标记合适的模型。注意由于模型需要常驻内存,不要卡着上限
|
8
diudiuu 20h 56m ago
|
9
ahdw 16h 17m ago
建议看看 oMLX 的社区评测,不要用 llama.cpp ,浪费苹果硬件
|