V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
YanSeven
V2EX  ›  程序员

碎碎念:什么时候硬件+llm 的发展能让码农像部署 nas 一样部署一个家用 llm

  •  
  •   YanSeven · 1 天前 · 3016 次点击
    有生之年有可能吗。

    1. 硬件价格打下来。
    2. LLM 开源模型能媲美顶尖模型
    28 条回复    2026-03-10 15:19:17 +08:00
    sagnitude
        1
    sagnitude  
       1 天前   ❤️ 1
    现在就可以啊。mac studio m3 ultra 四台联机,2T 内存,轻松部署 kimi k2.5 ,你要是日常用的话 mac mini 部署个小模型就行了
    stinkytofux
        2
    stinkytofux  
       1 天前
    完全有可能, 而且这个需求会被极大的推动. 因为不想数据泄露, 不管是个人还是公司, 都有私有部署大模型的需求.
    MomoBD
        3
    MomoBD  
       1 天前
    @sagnitude #1 我觉得主要还得等小模型的性能上来了以后才行吧。现在小模型的性能有点一言难尽。大模型本地部署的话算力需求又太高了
    msg7086
        4
    msg7086  
       1 天前
    顶尖模型需要非常高的成本来训练
    如果顶尖模型开源,谁来付高昂的训练费用
    没有资金的支持,模型怎么保持在顶尖位置
    得等到了模型瓶颈期了,很难提高了,没有发展了,泡沫破裂了,大批公司倒闭了,那有机会。
    msg7086
        5
    msg7086  
       1 天前
    顺便一提,家用 NAS 是一种成本很低的东西。不追求产量低的精致成品 NAS ,只是随便搭一下的话,弄台旧电脑装个系统就起来了,笔记本插 USB 硬盘也不是不行。
    自建小型 LLM 设备那就是用很大的初期投入换很低的性能或质量。
    现在家用级别你配置拉满 128GB 统一内存 AMD AI 平台也就跑 70B-120B 规模的模型。
    差不多相当于一个 Gemini 3.0 Flash 的水平,但后者现在的运行速度是本地部署的 10 倍以上了。
    bigmomo
        6
    bigmomo  
       1 天前
    恐怕得十年起步
    yukinotech
        7
    yukinotech  
       1 天前
    把模型刻在内存里,把模型推理结构刻到芯片里,已经有了
    unusualcat
        8
    unusualcat  
       1 天前
    现在家用级别你配置拉满 128GB 统一内存 AMD AI 平台也就跑 70B-120B 规模的模型。
    家用 NAS 的 AMD CPU 怎么能跑得起来 70-120B 的模型呢?
    我笔记本 GTX 1060 6GB 独立显存,40GB RAM ,ollama 本地跑 8b 的模型都勉强啊,只能说能用。速度明显感觉卡慢
    lujiaosama
        9
    lujiaosama  
       1 天前
    @yukinotech 专用硬件?相当于一个固化版本的本地大模型? 如果价格足够便宜确实是值得考虑的.
    jackOff
        10
    jackOff  
       1 天前
    @yukinotech 这个好像有缺陷,无法升级,只能不停的买新的硬件
    dajj
        11
    dajj  
       1 天前
    直接调接口就行了,何必非得本地运行模型。 如果你担心隐私,找个不要你隐私的,比如 cloudflare
    raysonlu
        12
    raysonlu  
       1 天前
    这么说吧,80 年前第一台计算机有差不多 4 个教室大,而当时的计算机甚至还不能玩贪吃蛇和扫雷。照这么看还是有盼头的。
    gpt5
        13
    gpt5  
       1 天前   ❤️ 1
    或许 ai 更像电力,我们没必要每个人都开一个发电厂。
    ffLoveJava
        14
    ffLoveJava  
       1 天前
    nas 的普及得益于 前几年存储的白菜价 以及监管的铁拳。 要是能把国产芯片的算力匹敌英伟达 a 再加上 llm 被限制到全是敏感词 那铁定 llm paas 产品大兴
    JoshTheLegend
        15
    JoshTheLegend  
       1 天前
    有的有的,四台 “8+512” 的 Mac Studio 串在一起的小推车了解一下
    xclimbing
        16
    xclimbing  
       1 天前
    只要出了 AI 专用的芯片,这些都不是事儿。现在是在发展期,就跟手机刚推出来那会儿类似。将来这玩意儿就是一个基础设备和基础服务。就跟你现在买个 VPS 需要的存储服务或者数据库服务差不多。而且,我觉得时间不会太长,10 年应该就差不多了。
    clemente
        17
    clemente  
       1 天前
    @xclimbing asic 芯片这玩意 基本是年抛 你会买?
    过三年基本模型就跑不了了, 要么 kernel 报错 要么慢的要死 变成鸡肋
    也就是数据中心的甲方会有乙方技术支持优化
    to c 的玩家还是算了
    clemente
        18
    clemente  
       1 天前
    @xclimbing 今年是 Llm, 过几年是 vlm , 再过几年还要支持世界模型
    xziar
        19
    xziar  
       23 小时 41 分钟前
    家用 NAS 能比得上数据中心的存储服务器吗?不要对本地部署开源模型有什么不切实际的幻想……
    硬件再发展,软件(模型)也会跟着吃掉这部分提升的。
    比如现在头部开源模型 500B 以上的规模,要保持智力得 256G 的内存,怎么想也做不到大众化,如果要提升速度,还得上 256G 的显存。

    但是放低要求的话,最近的 qwen3.5 35b-a3b ,q4 量化(去掉视觉部分)只要 4G 显存+家用级内存就能跑差不多 20t/s ,这就跟家用 NAS 的定位比较接近了。
    likooo125802023
        20
    likooo125802023  
       23 小时 25 分钟前
    @xziar nas 的定义别那么死嘛
    本质也是一台 24 小时在线的服务器
    只是以前需求低,低配就能跑

    那以后需求高了就按服务器配呗,顺便带带 NAS 那点应用不就小儿科
    uncleroot
        21
    uncleroot  
       21 小时 0 分钟前
    可能得等到有比较成熟的 ASIC 的 AI 加速卡才比较划算。
    zhy0216
        22
    zhy0216  
       19 小时 1 分钟前 via Android
    英伟达去年收购了个公司专门做推理加速的
    过几天发布可以看看
    defaw
        23
    defaw  
       18 小时 51 分钟前
    qwen3.5 30b 的模型操作浏览器 mcp 执行一些动作成功率已经可以了,我实测让他帮我去 xx 网站看头条是什么,发评论等等都能成功。部署 30b 的模型一张 4090 足以
    ershierdu
        24
    ershierdu  
       18 小时 37 分钟前 via Android
    取决于你对顶尖模型的定义
    - 此刻的顶尖模型:几乎是 100%的事,我感觉用不了几年
    - 与彼时的顶尖模型一致:我觉得很难,除非硬件算力不是瓶颈了(也就是云端模型被其他因素限制住了,性能过剩了)
    galenzhao
        25
    galenzhao  
       18 小时 31 分钟前
    gb10
    msg7086
        26
    msg7086  
       12 小时 50 分钟前
    @unusualcat #8
    可以去看一下 Ryzen AI MAX+ 395 ,核显跑模型。
    现在跑模型的瓶颈都在内存交换速度,你 6GB 显存去连 40G 慢的要死的内存肯定比统一内存架构要慢啊,带宽能差 10 倍了。
    SodaPopBoy
        27
    SodaPopBoy  
       6 小时 32 分钟前
    以后的电脑买来直接可以自己干活
    hafuhafu
        28
    hafuhafu  
       3 小时 23 分钟前
    现在 LLM 还是得靠力大砖飞,性能要强模型参数就不能小,参数不小硬件就要求高。
    加上就算是自己本地部署,实际真要用起来肯定不是简单的单模型 1 并发龟速对话这种玩具场景。
    成本也低不了,也许未来某天硬件和 LLM 模型能力都是现在的 N 倍了,现在这玩法套已经被淘汰到历史的垃圾桶里了,那估计现在这套的成本就打下来了,也是能凑合用。
    但是我的想象力限制了我,想象不出来这一天还要多少年才能到来。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3646 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 10:42 · PVG 18:42 · LAX 03:42 · JFK 06:42
    ♥ Do have faith in what you're doing.