1
1119745302 2024 年 7 月 23 日
换个后端?
|
2
CNYoki OP @1119745302 #1 这个跟后端没太大关系吧,直接用的 python 调的 ollama 的库
|
3
KylinYou 2024 年 7 月 23 日 via Android
在 llama.cpp 那边提个 issue 呢
|
4
swulling 2024 年 7 月 23 日
为啥 A800 还用 ollama 或 llama.cpp 。直接用 vLLM 。
|
5
neteroster 2024 年 7 月 23 日 via Android
用 vLlm 。
|
6
CNYoki OP vLLM 现在有 json mode 了吗
|
7
0x3933030 2024 年 7 月 23 日
只有卡 0 用起来了,怎么想都是模型实现的问题
|
9
1119745302 2024 年 7 月 23 日
@CNYoki llama.cpp 似乎不支持张量并行,就算 4 张卡显存占满了也跑不快. https://www.bilibili.com/video/BV1DH4y1c7gK/ 可以参考一下这个, 换个 vllm 啊啥的后端一般就是随便跑了
|
10
crackidz 2024 年 7 月 23 日
当然是换个后端... vllm 算是比较流行的企业级后端
|
11
GrayXu 2024 年 7 月 24 日
@CNYoki #2 就是后端问题,ollama 是依赖 llama.cpp 的吧,llama.cpp 只能模型并行,不能提升 token 速度。用 vllm 。
|
12
clemente 2024 年 7 月 24 日
开大 batch size
|