smalltong02 最近的时间轴更新
smalltong02

smalltong02

V2EX 第 673310 号会员,加入于 2024-01-25 23:55:22 +08:00
今日活跃度排名 8431
7 S 82 B
I like windows kernel, llvm, machine learning and deep learning
smalltong02 最近回复了
@kenshinhu

看起来是 Linux 机器,你可以部署 8bit 的量化模型,16GB 的显存够用了。
@secondwtq

经过测试 Llama-3 和 Phi-3 都能够和 Function Calling 和代码解释器一起使用。其实 Function Calling 对模型的能力要求要低一些,代码解释器要求模型的能力要高一些。对于 Function Calling ,大部分模型在几轮对话之后都会失去调用 Function 的能力,只有 GPT-4 模型在这块做的是最好的。
@kenshinhu

7B 模型如果不进行量化,仅仅使用 16G 的显存加载模型并推理不太够用,尤其是 Linux 系统,必须要保证显存足够。如果是 windows 系统,是会向内存借用一部分保证不会报内存不足错误,但也会导致推理降速。建议 7B 模型使用 3090 或者 4090 显卡进行测试。
@euph

目前还没有测试过呢。
@lanlanye

量化模型最主要的问题就是精度会有一些损失,有点类似于有损压缩。两个数据很近的话,比如第一个是 0.2385637 ,第二个是 0.2385644 ,那么量化之后很可以这两个值都落在同一个 int 值上面,这就会造成精度损失。量化模型偶尔会有输出乱或者不停止,通常就是这种问题造成的。
@SylarQAQ

我的这个项目偏向于对热门模型进行各种任务测试并可进行横向比较用的,更倾向于摸清模型在各种任务中的实际表现。

比如你在使用其它开源项目的时候可能会有这样的烦恼。比如 text-generation-webui 项目,它可以适配大部分的离线模型,但不支持在线模型。LM Studio 项目,它可以使用 CPU 跑任何模型,但它仅支持 GGUF 格式模型。ComfyUI 对图像模型的支持生成非常专业,但它仅此而已。Open Interpreter 项目可以让你在本地运行代码解释器,但它仅仅支持 GPT-4 等在线模型,离线模型需要接入其它开源项目。

当你想对不同的模型(包括在线模型和各种离线模型)在相同环境下测试 RAG 任务,接入代码解释器,使用 Function Calling ,搜索引擎,或者接入 TTS ,生成图像的时候,你发现你需要使用一个或者多个开源项目互相配合才能达到目的,并且很可能多个开源项目还无法同时接入。当你想比较离线模型和 GPT-4 ,Gemini 这种闭源在线模型在搭配相同工具在各种任务中表现差异的时候,你会发现很难或者可能根本就做不到。

我的这个开源项目就是针对这类问题才做的,它可以加载各种在线模型,也支持各种热门的离线模型(包括量化模型)。
并且提供了相同的工具,包括
1. 接入搜索引擎
2. Function Calling
3. 角色扮演
4. 代码解释器
5. 接入 TTS (语音输入和输出)
6. 接入图像识别模型
7. 接入图像生成模型

举例说明:
这是一个早期的例子,将图像模型接入 llama-2-7b-chat 模型,让它也可以想多模态模型那样,拥有从图像生成另一幅图像的能力:

@fredweili 是的,而且这次 MS 的 Phi-3 也不错,3B 的模型也都可以完成这些任务,只不过成功率低一些。
不错,不过我想做一个可以离线生成漫画的 AI 工具,语言模型和图像生成模型可以自由选择。
那是因为 ollama 加载的是 gguf 的量化模型。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2342 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 26ms · UTC 13:20 · PVG 21:20 · LAX 06:20 · JFK 09:20
Developed with CodeLauncher
♥ Do have faith in what you're doing.