V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
Contextualist
V2EX  ›  分享创造

孤独的裁判员:高效地人工评估 LLM fine-tuning 效果

  •  
  •   Contextualist ·
    Contextualist · 325 天前 · 2363 次点击
    这是一个创建于 325 天前的主题,其中的信息可能已经有所发展或是发生改变。

    幸幸苦苦更新了数据集……fine-tuning 训练得到了一堆不同步数的 checkpoints……但是,要选哪一个呢?这次训练结果跟上一次比有没有提升呢?

    选一个 LLM 评估套件吧。C-Eval ? CMMLU ? BBH ?可是我的模型它不擅长考试啊!自制一个领域内评估套件?可是我的领域很难制定客观标准啊!让 GPT-4 当裁判?OpenAI: This prompt may violate our content policy.

    还是手动做人工评估吧。望向一大堆生成结果,能不能减少一些心智负担呢?

    我将人工评估的过程抽丝剥茧,最后剩下灵魂一问:

    lone_arena-ui-zh

    按 f 键或 j 键裁定对决结果。

    这个工具会自动将模型回答的采样结果配对转化成淘汰赛。对于每个 prompt ,如果两个模型各进行 8 次采样,评判过程会被分解成大约 20 次的这种两两对决。淘汰赛的详细规则我写在项目 README 里了。因为目前只比较两个模型并且我给不同比赛加了不同权重,所以暂时没有采用 Elo 计分。

    那么,https://github.com/Contextualist/lone-arena

    作为对机器学习社群文化的致意,本项目界面采用 Gradio 编写。

    第 1 条附言  ·  323 天前
    加权 Elo 计分已实现,现在可以同时比较多个模型了。
    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1713 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 16:40 · PVG 00:40 · LAX 08:40 · JFK 11:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.