gemma:2b 这个模型想要流畅运行起来需要什么配置的电脑

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 797 days ago, the information mentioned may be changed or developed.

在 2c2g 的服务器上部署了个 gemma:2b ，响应太慢了，如果用家用台式机带 GPU 跑这个模型，什么样的配置才能流畅的进行问题交流？

gemma

模型

c2g

台式机

30 replies • 2024-03-07 10:19:29 +08:00

13240284671

Mar 1, 2024

2b 要求很低的，有个 6g 显卡就可以了

crackidz

Mar 1, 2024

2B 模型 CPU 跑就行...

shinyzhu

Mar 1, 2024

我的 M2 ，24G 非常流畅。

coinbase

Mar 1, 2024

m1 pro 16g ，gemma:7b 也可以跑

noahlias

Mar 1, 2024

我看了一下在我的 8G 3060TI 上推理速度

在我的 m1. pro 16g

看来还是 cuda🐮

vvhy

Mar 1, 2024

1660s ，75 tokens/s

yankebupt

Mar 1, 2024

@noahlias instruct 模型和 base 模型使用感觉上有什么差距么？ 7b 能进行简单中文任务么？

noahlias

Mar 1, 2024

@yankebupt 中文你用 qwen 模型吧那个效果好，instruct 在一些问题回答上会更好啊当然也是答辩

想看比较,自己去 llm leaderboard 看吧 ,
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

gongquanlin

Mar 1, 2024

2b 的模型能干什么工作呀？感觉有点太笨了用起来

hutng

Mar 1, 2024

ollama 普通 cpu 也能跑 7b ，但是感觉好垃圾呀，和 chatgpt 差十万八千里，类似于小爱同学这样的，也不知道是不是我用的姿势不对。

Fish1024

Mar 1, 2024

内存大点就行，13b 也能跑，就是慢点，能用。

abcfreedom

Mar 2, 2024 via Android

@crackidz 有点慢呀感觉

abcfreedom

Mar 2, 2024 via Android

@shinyzhu 太强了

abcfreedom

Mar 2, 2024 via Android

@coinbase 正好我也有太 m1pro ，回头试试

abcfreedom

Mar 2, 2024 via Android

@noahlias 话说 amd 的卡能跑吗，手上有张 amd6900xt

abcfreedom

Mar 2, 2024 via Android

@vvhy 收到

abcfreedom

Mar 2, 2024 via Android

@noahlias 如果用作中英文翻译，哪个模型比较合适呢

abcfreedom

Mar 2, 2024 via Android

@gongquanlin 其实我也不太清楚，只知道这个模型对资源要求比较低，所以想着部署着玩一下

abcfreedom

Mar 2, 2024 via Android

@Fish1024 好嘞收到

noahlias

Mar 2, 2024

@abcfreedom 应该是可以的

ollama 不过你得自己编译下 issue( https://github.com/ollama/ollama/issues/738)里面找解决方案
或者你用 llama.cpp https://github.com/ggerganov/llama.cpp
readme 里面是提到有支持 hipBlAS 的 https://github.com/ggerganov/llama.cpp#hipblas

gongquanlin

Mar 2, 2024

@abcfreedom #18 跑了一下 miniCPM-2b ，翻译、总结效果还不错，就是部分回答有点让人捉急哈哈~

smalltong02

Mar 2, 2024

那是因为 ollama 加载的是 gguf 的量化模型。

unclemcz

Mar 2, 2024 via Android

@gongquanlin miniCPM 这个模型我在 ollama 官网搜索不到，有具体链接提供吗？我最近给自己的一个翻译软件增加 ollama 支持，测试用 qwen-4b ，效果很一般，想再找一个翻译效果好一点的。

abcfreedom

Mar 2, 2024

@gongquanlin 强回头我也试试

gongquanlin

Mar 3, 2024

@unclemcz 是清华的那个面壁模型
https://github.com/OpenBMB/MiniCPM/tree/main

shinyzhu

Mar 6, 2024

哦哦。原来用 verbose 就可以看到速度了啊。我的 MacBook Pro （ M2 ，8Core+10GPU ，24G 内存）：

```
~ % ollama run gemma:2b --verbose

total duration: 6.300357083s
load duration: 896.708µs
prompt eval count: 13 token(s)
prompt eval duration: 201.698ms
prompt eval rate: 64.45 tokens/s
eval count: 284 token(s)
eval duration: 6.096544s
eval rate: 46.58 tokens/s
```

crackidz

Mar 7, 2024

@unclemcz https://ollama.com/roger/minicpm
@abcfreedom 要看你的具体的配置，比如内存，CPU 。AMD 的支持很快会发 pre-release 了，速度据说比 NV 慢一点但是比 CPU 还是快多了

unclemcz

Mar 7, 2024 via Android

@crackidz 我现在是 8g 的内存，3550h ，跑 qwen:7b ，短句的翻译需要 30s 左右。
@abcfreedom qwen:4b 的速度快很多，但质量差 7b 太多。如果只是翻译，可以接各大翻译接口，百度腾讯华为都有，也都有免费额度。

unclemcz

Mar 7, 2024 via Android

@abcfreedom 上楼再补充一下，翻译接口最大的问题是会吃单词，百度腾讯网易都有这个问题，所以如果有合适翻译的大模型，确实是优选。

abcfreedom

Mar 7, 2024

@unclemcz 我找了个 openai 中转的 api ，拿来对接了翻译，感觉还可以