V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
爱意满满的作品展示区。
yongyang599

我开发了一个面向大语言模型的智能数据集构建工具

  •  
  •   yongyang599 · May 27, 2025 · 1661 views
    This topic created in 341 days ago, the information mentioned may be changed or developed.

    最近我开发了一个面向大语言模型的数据集构建工具 - DatasetLoom 。主要是为了更快地从自己的文档中生成训练数据,用来微调大模型。

    用起来很简单:

    • 上传文档(支持 PDF 、Word 、Markdown 、TXT 等)
    • 自动分块(多种策略可选)
    • 自动生成问题和答案(多种策略可选)
    • 导出标准格式,可以直接喂给 LLaMA Factory 等工具训练
    • 还支持批量任务处理和定时执行,方便日常使用。

    项目地址: https://github.com/599yongyang/DatasetLoom

    如果你也在做模型微调或者需要准备训练数据,欢迎大家试用。

    目前是我一个人在开发和维护可能还有一些小问题。如果遇到什么问题,欢迎 Star 和反馈建议,我会尽快修复,感谢支持!

    No Comments Yet
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2502 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 09:57 · PVG 17:57 · LAX 02:57 · JFK 05:57
    ♥ Do have faith in what you're doing.