最近炼了一个小模型放出来给大家玩,专门针对 OpenCode (还有 Claude Code )做了蒸馏。
FP8 量化后权重大概 13GB ,单张 24GB 显卡用 vLLM 就能跑 200K 上下文。
核心目标:claude 的风格,降低 tool call 的失败率,让 agent 能跑更长的连续任务。
蹲一下:Bug 反馈、奇怪的 trace 、改进建议都欢迎 🙏
🤗 HF: Qwen3.5-Sonnet-9B
最近炼了一个小模型放出来给大家玩,专门针对 OpenCode (还有 Claude Code )做了蒸馏。
FP8 量化后权重大概 13GB ,单张 24GB 显卡用 vLLM 就能跑 200K 上下文。
核心目标:claude 的风格,降低 tool call 的失败率,让 agent 能跑更长的连续任务。
蹲一下:Bug 反馈、奇怪的 trace 、改进建议都欢迎 🙏
🤗 HF: Qwen3.5-Sonnet-9B
1
zhang666 1 day ago via iPhone
22G 可以用吗?
|
2
kuhung 1 day ago
好奇有做效果测试和对比吗 另外有考虑提供更近一步的量化和苹果环境的权重嘛
|
4
ytgui OP @kuhung 还在跑,ifeval (指令跟随) 和 gpqa_diamond (通用知识)没有弱化。我提供的权重是 hugging face 的标准 fp8 ,不是很熟悉苹果权重,可能会做~
|
5
tootfsg 1 day ago via Android
好奇,这种和 gemma4 26b a3b 的 iq4xs 量化这种对比哪个好,尺寸可以说一样大。
|