wwhc 最近的时间轴更新
wwhc

wwhc

V2EX 第 145809 号会员,加入于 2015-11-05 06:54:06 +08:00
今日活跃度排名 18497
wwhc 最近回复了
差一点就能赶上 Qwen3.5 了
Qwen3.5 是适于本地部署的开源模型中最强的,Google 昨天新发布的开源 Gemma 4 模型也仅仅是追上 Qwen3.5 而已
罚太少了,我建议至少 5000 起步
Token 自由的感觉蛮不错
经验是用一到两块高性能大显存卡如 3090/4090/5090 ,再加上若干便宜的中低端卡(8-16GB 显存),把所有层都放进显存(能容纳的上下文越多越好,256k 大概需要 60GB 显存以上),尽可能多的把专家权重放到显存,一般能实现 10-20t/s 或以上的速度,建议使用 llama.cpp 而不是 vllm ,以便于快速迭代及灵活的硬件搭配
本地开源模型的表现:用楼主的复杂提示词,gpt-oss-120b 一次就成功完成了. Qwen3-Coder-Next-MXFP4 用了 5 次才成功,Qwen3.5-397B-A17B-MXFP4 3 次成功完成.成品质量最好的是 Qwen3.5-397B ,gpt-oss-120b 也算可以,但确实翻页有点慢
Qwen3.5 27B 很聪明,直接判定对方更“有理”,你是在耍流氓。
3 月 7 日
回复了 Livid 创建的主题 OpenAI GPT-5.4 Thinking 依然过不了洗车测试
不至于吧? Qwen3.5 35B/27B 这样的小模型都能给出正确答案
支持开源模型,希望能尽快开源 air 版本
2 月 13 日
回复了 everettjf 创建的主题 Rust 开源这两天 Vibe 的 Rust 重写的 OpenClaw
非得要绑定社交媒体才能使用?一直在找不是用 python 开发的能离线使用的本地模型 agent
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5469 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 16ms · UTC 07:29 · PVG 15:29 · LAX 00:29 · JFK 03:29
♥ Do have faith in what you're doing.