碎碎念：什么时候硬件+llm 的发展能让码农像部署 nas 一样部署一个家用 llm

28 条回复 • 2026-03-10 15:19:17 +08:00

1

sagnitude

1 天前

1

现在就可以啊。mac studio m3 ultra 四台联机，2T 内存，轻松部署 kimi k2.5 ，你要是日常用的话 mac mini 部署个小模型就行了

2

stinkytofux

1 天前

完全有可能, 而且这个需求会被极大的推动. 因为不想数据泄露, 不管是个人还是公司, 都有私有部署大模型的需求.

3

MomoBD

1 天前

@sagnitude #1 我觉得主要还得等小模型的性能上来了以后才行吧。现在小模型的性能有点一言难尽。大模型本地部署的话算力需求又太高了

4

msg7086

1 天前

顶尖模型需要非常高的成本来训练
如果顶尖模型开源，谁来付高昂的训练费用
没有资金的支持，模型怎么保持在顶尖位置
得等到了模型瓶颈期了，很难提高了，没有发展了，泡沫破裂了，大批公司倒闭了，那有机会。

5

msg7086

1 天前

顺便一提，家用 NAS 是一种成本很低的东西。不追求产量低的精致成品 NAS ，只是随便搭一下的话，弄台旧电脑装个系统就起来了，笔记本插 USB 硬盘也不是不行。
自建小型 LLM 设备那就是用很大的初期投入换很低的性能或质量。
现在家用级别你配置拉满 128GB 统一内存 AMD AI 平台也就跑 70B-120B 规模的模型。
差不多相当于一个 Gemini 3.0 Flash 的水平，但后者现在的运行速度是本地部署的 10 倍以上了。

6

bigmomo

1 天前

恐怕得十年起步

7

yukinotech

1 天前

把模型刻在内存里，把模型推理结构刻到芯片里，已经有了

8

unusualcat

1 天前

现在家用级别你配置拉满 128GB 统一内存 AMD AI 平台也就跑 70B-120B 规模的模型。
家用 NAS 的 AMD CPU 怎么能跑得起来 70-120B 的模型呢？
我笔记本 GTX 1060 6GB 独立显存，40GB RAM ，ollama 本地跑 8b 的模型都勉强啊，只能说能用。速度明显感觉卡慢

9

lujiaosama

1 天前

@yukinotech 专用硬件?相当于一个固化版本的本地大模型? 如果价格足够便宜确实是值得考虑的.

10

jackOff

1 天前

@yukinotech 这个好像有缺陷，无法升级，只能不停的买新的硬件

11

dajj

1 天前

直接调接口就行了，何必非得本地运行模型。如果你担心隐私，找个不要你隐私的，比如 cloudflare

12

raysonlu

1 天前

这么说吧，80 年前第一台计算机有差不多 4 个教室大，而当时的计算机甚至还不能玩贪吃蛇和扫雷。照这么看还是有盼头的。

13

gpt5

1 天前

1

或许 ai 更像电力，我们没必要每个人都开一个发电厂。

14

ffLoveJava

1 天前

nas 的普及得益于前几年存储的白菜价以及监管的铁拳。要是能把国产芯片的算力匹敌英伟达 a 再加上 llm 被限制到全是敏感词那铁定 llm paas 产品大兴

15

JoshTheLegend

1 天前

有的有的，四台 “8+512” 的 Mac Studio 串在一起的小推车了解一下

16

xclimbing

1 天前

只要出了 AI 专用的芯片，这些都不是事儿。现在是在发展期，就跟手机刚推出来那会儿类似。将来这玩意儿就是一个基础设备和基础服务。就跟你现在买个 VPS 需要的存储服务或者数据库服务差不多。而且，我觉得时间不会太长，10 年应该就差不多了。

17

clemente

1 天前

@xclimbing asic 芯片这玩意基本是年抛你会买?
过三年基本模型就跑不了了, 要么 kernel 报错要么慢的要死变成鸡肋
也就是数据中心的甲方会有乙方技术支持优化
to c 的玩家还是算了

18

clemente

1 天前

@xclimbing 今年是 Llm, 过几年是 vlm , 再过几年还要支持世界模型

19

xziar

23 小时 41 分钟前

家用 NAS 能比得上数据中心的存储服务器吗？不要对本地部署开源模型有什么不切实际的幻想……
硬件再发展，软件（模型）也会跟着吃掉这部分提升的。
比如现在头部开源模型 500B 以上的规模，要保持智力得 256G 的内存，怎么想也做不到大众化，如果要提升速度，还得上 256G 的显存。

但是放低要求的话，最近的 qwen3.5 35b-a3b ，q4 量化（去掉视觉部分）只要 4G 显存+家用级内存就能跑差不多 20t/s ，这就跟家用 NAS 的定位比较接近了。

20

likooo125802023

23 小时 25 分钟前

@xziar nas 的定义别那么死嘛
本质也是一台 24 小时在线的服务器
只是以前需求低，低配就能跑

那以后需求高了就按服务器配呗，顺便带带 NAS 那点应用不就小儿科

21

uncleroot

21 小时 0 分钟前

可能得等到有比较成熟的 ASIC 的 AI 加速卡才比较划算。

22

zhy0216

19 小时 1 分钟前 via Android

英伟达去年收购了个公司专门做推理加速的
过几天发布可以看看

23

defaw

18 小时 51 分钟前

qwen3.5 30b 的模型操作浏览器 mcp 执行一些动作成功率已经可以了，我实测让他帮我去 xx 网站看头条是什么，发评论等等都能成功。部署 30b 的模型一张 4090 足以

24

ershierdu

18 小时 37 分钟前 via Android

取决于你对顶尖模型的定义
- 此刻的顶尖模型：几乎是 100%的事，我感觉用不了几年
- 与彼时的顶尖模型一致：我觉得很难，除非硬件算力不是瓶颈了（也就是云端模型被其他因素限制住了，性能过剩了）

25

galenzhao

18 小时 31 分钟前

gb10

26

msg7086

12 小时 50 分钟前

@unusualcat #8
可以去看一下 Ryzen AI MAX+ 395 ，核显跑模型。
现在跑模型的瓶颈都在内存交换速度，你 6GB 显存去连 40G 慢的要死的内存肯定比统一内存架构要慢啊，带宽能差 10 倍了。

27

SodaPopBoy

6 小时 32 分钟前

以后的电脑买来直接可以自己干活

28

hafuhafu

3 小时 23 分钟前

现在 LLM 还是得靠力大砖飞，性能要强模型参数就不能小，参数不小硬件就要求高。
加上就算是自己本地部署，实际真要用起来肯定不是简单的单模型 1 并发龟速对话这种玩具场景。
成本也低不了，也许未来某天硬件和 LLM 模型能力都是现在的 N 倍了，现在这玩法套已经被淘汰到历史的垃圾桶里了，那估计现在这套的成本就打下来了，也是能凑合用。
但是我的想象力限制了我，想象不出来这一天还要多少年才能到来。