目前在试着跑了下开源的大模型,发现大模型数据比较占用显存,一般消费级别的显存都很小,不会超过 16G ,但是稍微参数大些的模型数据就超过 16G 了,当加载模型数据到显存时显然是不够的,然后发现程序就完全在硬盘上推理,速度奇慢无比,如果显卡能使用内存加显存岂不是很爽,再大的模型都可以加载,而且不用跑的那么慢 有大佬比较清楚吗,可以详细说说么
1
NoOneNoBody 249 天前 1
不要滥发分享创造这个节点,站长会处理的
一般提问就问与答就可以了 消费级就不要跑建模了,不如只用 CPU+内存 |
2
handuo 249 天前 via Android
nvidia jetson agx 64GB ,但是 CPU 和 GPU 很弱,一般用于边缘计算的,勉强可以跑小型 llm
|
3
minami 249 天前
|
4
wwwuser OP |
5
mortal 249 天前
明明有混合模式
|