1
lilei2023 254 天前
没几个牛逼的 GPU ,估计跑不起来吧
|
2
muzihuaner OP @lilei2023 确实
|
3
Bluecoda 253 天前 6
自主创新又可以了
|
4
huihuiHK 253 天前 2
国内一大批自主创新正在路上
|
6
Beginner1 253 天前
314B 个参数,得什么水准的设备才能跑
|
7
okakuyang 253 天前 via iPhone
老马还是说到做到的
|
8
Beginner1 253 天前
话说 Meta 的 13B 的 chat 如何,有没有人搭建过,准备搞一个,如果效果不好就算了
|
9
e1d4py0KiD6KgqkQ 253 天前 via Android
我看有人把它下载了,几百 G
|
10
DIMOJANG 253 天前 2
|
11
huluhulu 253 天前
Grok-1 之前测试成绩好像不太行,属于量大,但是不行的那种
|
12
Chihaya0824 253 天前
这个是一个 MoE 模型,然后也是 8 个 expert 然后同时激活两个的架构
所以大概率并不是 OP 算的那样要整个丢进去,大概硬要求只是需要类似 90B 模型的大小的空间就行了 苹果的统一内存还是很可能能用的,特别是这还是没有 Quantization 之前的大小 所以老黄能不能下一代 90 系列变成 48G 显存秋梨膏 |
13
RockShake 253 天前
有人跑成功了么?
|
14
kokutou 253 天前
搜了下
“它是 314B int8 参数,因此您需要 314GB 内存来加载模型,再加上一些用于 K/V 缓存等内容” 看来得撕裂者才行了... |
15
kokutou 253 天前
@kokutou #14
内存-->显存 “一旦 llama.cpp 添加支持并且有人发布 4 位(或更低)量化权重,就可以在 CPU 上运行它。您将需要大约 256 GB RAM ,这对于普通用户来说比需要这么多 VRAM 更合理。” |
16
lovestudykid 253 天前 1
@Bluecoda #3 Grok-1 用了更多的参数,还达不到 QWEN2 的性能,就让你 high 起来了?
|
17
lovestudykid 253 天前 1
这个模型就是马斯克放出来碰瓷的,用了更多的参数还比不上别家的性能,希望用开源道德绑架其他领先的厂商,逼人家也开源。
|
18
mumbler 253 天前
这个模型最大价值是用来蒸馏数据,毕竟用了 twitter 全部数据训练,这是其他大模型没有的语料
|
19
coolair 253 天前
将近 300G ,下载都没那么大硬盘……
|
20
wanwaneryide 253 天前
@coolair 300G 的硬盘很难?又不是 300T
|
21
QlanQ 253 天前
@wanwaneryide M1 256G 路过....
|
22
coinbase 252 天前
某些人的民族自卑情结也太过了吧。
Grok 虽然堆的参数多,但是实际表现比得上国产 Qwen 吗?我 Grok 开了年费会员,就用了一两天就弃用了,难用的一匹,谁会去抄袭它? |
23
s4d 251 天前
让子弹飞一会儿
|