1
sagnitude 1 天前 现在就可以啊。mac studio m3 ultra 四台联机,2T 内存,轻松部署 kimi k2.5 ,你要是日常用的话 mac mini 部署个小模型就行了
|
2
stinkytofux 1 天前
完全有可能, 而且这个需求会被极大的推动. 因为不想数据泄露, 不管是个人还是公司, 都有私有部署大模型的需求.
|
4
msg7086 1 天前
顶尖模型需要非常高的成本来训练
如果顶尖模型开源,谁来付高昂的训练费用 没有资金的支持,模型怎么保持在顶尖位置 得等到了模型瓶颈期了,很难提高了,没有发展了,泡沫破裂了,大批公司倒闭了,那有机会。 |
5
msg7086 1 天前
顺便一提,家用 NAS 是一种成本很低的东西。不追求产量低的精致成品 NAS ,只是随便搭一下的话,弄台旧电脑装个系统就起来了,笔记本插 USB 硬盘也不是不行。
自建小型 LLM 设备那就是用很大的初期投入换很低的性能或质量。 现在家用级别你配置拉满 128GB 统一内存 AMD AI 平台也就跑 70B-120B 规模的模型。 差不多相当于一个 Gemini 3.0 Flash 的水平,但后者现在的运行速度是本地部署的 10 倍以上了。 |
6
bigmomo 1 天前
恐怕得十年起步
|
7
yukinotech 1 天前
把模型刻在内存里,把模型推理结构刻到芯片里,已经有了
|
8
unusualcat 1 天前
现在家用级别你配置拉满 128GB 统一内存 AMD AI 平台也就跑 70B-120B 规模的模型。
家用 NAS 的 AMD CPU 怎么能跑得起来 70-120B 的模型呢? 我笔记本 GTX 1060 6GB 独立显存,40GB RAM ,ollama 本地跑 8b 的模型都勉强啊,只能说能用。速度明显感觉卡慢 |
9
lujiaosama 1 天前
@yukinotech 专用硬件?相当于一个固化版本的本地大模型? 如果价格足够便宜确实是值得考虑的.
|
10
jackOff 1 天前
@yukinotech 这个好像有缺陷,无法升级,只能不停的买新的硬件
|
11
dajj 1 天前
直接调接口就行了,何必非得本地运行模型。 如果你担心隐私,找个不要你隐私的,比如 cloudflare
|
12
raysonlu 1 天前
这么说吧,80 年前第一台计算机有差不多 4 个教室大,而当时的计算机甚至还不能玩贪吃蛇和扫雷。照这么看还是有盼头的。
|
13
gpt5 1 天前 或许 ai 更像电力,我们没必要每个人都开一个发电厂。
|
14
ffLoveJava 1 天前
nas 的普及得益于 前几年存储的白菜价 以及监管的铁拳。 要是能把国产芯片的算力匹敌英伟达 a 再加上 llm 被限制到全是敏感词 那铁定 llm paas 产品大兴
|
15
JoshTheLegend 1 天前
有的有的,四台 “8+512” 的 Mac Studio 串在一起的小推车了解一下
|
16
xclimbing 1 天前
只要出了 AI 专用的芯片,这些都不是事儿。现在是在发展期,就跟手机刚推出来那会儿类似。将来这玩意儿就是一个基础设备和基础服务。就跟你现在买个 VPS 需要的存储服务或者数据库服务差不多。而且,我觉得时间不会太长,10 年应该就差不多了。
|
17
clemente 1 天前
@xclimbing asic 芯片这玩意 基本是年抛 你会买?
过三年基本模型就跑不了了, 要么 kernel 报错 要么慢的要死 变成鸡肋 也就是数据中心的甲方会有乙方技术支持优化 to c 的玩家还是算了 |
19
xziar 23 小时 41 分钟前
家用 NAS 能比得上数据中心的存储服务器吗?不要对本地部署开源模型有什么不切实际的幻想……
硬件再发展,软件(模型)也会跟着吃掉这部分提升的。 比如现在头部开源模型 500B 以上的规模,要保持智力得 256G 的内存,怎么想也做不到大众化,如果要提升速度,还得上 256G 的显存。 但是放低要求的话,最近的 qwen3.5 35b-a3b ,q4 量化(去掉视觉部分)只要 4G 显存+家用级内存就能跑差不多 20t/s ,这就跟家用 NAS 的定位比较接近了。 |
20
likooo125802023 23 小时 25 分钟前
|
21
uncleroot 21 小时 0 分钟前
可能得等到有比较成熟的 ASIC 的 AI 加速卡才比较划算。
|
22
zhy0216 19 小时 1 分钟前 via Android
英伟达去年收购了个公司专门做推理加速的
过几天发布可以看看 |
23
defaw 18 小时 51 分钟前
qwen3.5 30b 的模型操作浏览器 mcp 执行一些动作成功率已经可以了,我实测让他帮我去 xx 网站看头条是什么,发评论等等都能成功。部署 30b 的模型一张 4090 足以
|
24
ershierdu 18 小时 37 分钟前 via Android
取决于你对顶尖模型的定义
- 此刻的顶尖模型:几乎是 100%的事,我感觉用不了几年 - 与彼时的顶尖模型一致:我觉得很难,除非硬件算力不是瓶颈了(也就是云端模型被其他因素限制住了,性能过剩了) |
25
galenzhao 18 小时 31 分钟前
gb10
|
26
msg7086 12 小时 50 分钟前
@unusualcat #8
可以去看一下 Ryzen AI MAX+ 395 ,核显跑模型。 现在跑模型的瓶颈都在内存交换速度,你 6GB 显存去连 40G 慢的要死的内存肯定比统一内存架构要慢啊,带宽能差 10 倍了。 |
27
SodaPopBoy 6 小时 32 分钟前
以后的电脑买来直接可以自己干活
|
28
hafuhafu 3 小时 23 分钟前
现在 LLM 还是得靠力大砖飞,性能要强模型参数就不能小,参数不小硬件就要求高。
加上就算是自己本地部署,实际真要用起来肯定不是简单的单模型 1 并发龟速对话这种玩具场景。 成本也低不了,也许未来某天硬件和 LLM 模型能力都是现在的 N 倍了,现在这玩法套已经被淘汰到历史的垃圾桶里了,那估计现在这套的成本就打下来了,也是能凑合用。 但是我的想象力限制了我,想象不出来这一天还要多少年才能到来。 |