训练类 ChatGPT 模型时如何避免模型自己生成的样本？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 672 天前的主题，其中的信息可能已经有所发展或是发生改变。

随着越来越多的人在网上部分或全部使用这类模型生成的文本，用爬虫抓训练数据时可能得到大量模型自己生成的文本影响训练的效果。怎样可以避免这类“自产自销”的样本？

模型

生成

文本

样本

7 条回复 • 2023-02-16 11:54:59 +08:00

gogorush

2023-02-16 08:28:25 +08:00

大概率 chatgpt 会把自己的问题和答案全存着的用户协议里面就有

jstony

2023-02-16 08:54:37 +08:00

@gogorush 没必要存答案吧，同一个模型同一个问题，出来的答案可能是一致的。

jamosLi

2023-02-16 09:22:52 +08:00

首先啊，我是说首先啊。bing 本身就是一个标签系统，你胡子眉毛一把抓的爬虫数据，本身就是垃圾样本。

satoru

2023-02-16 09:25:03 +08:00

@jstony 有一个 temperature 参数可以控制有多大概率随机选择概率不是最高的下一个“词”，所以没有缓存的话多次运行很可能看到不一样的结果。

ersic

2023-02-16 09:32:48 +08:00

chatgpt 可以基于一个模型训练属于自己模型，这个新模型应该是私有的。

h272377502

2023-02-16 10:31:18 +08:00

到了 chatgpt 这种级别的数量级，肯定不能完全避免，openai 自己有训练模型区分对话是否有 ai 生成，也只能分辨很长的那类的句子，短的无法区分出差异。训练 chatgpt 的第一部是训练 gpt ，简单的讲，gpt 就是学习通顺的上下句，那些模型产的数据，只要上下文通顺，影响不大。chatgpt 的下一步，通过 rlhf 方式去训练模型的（这部分需要人类去标注回答的好坏），可以理解成，有个模型在给 gpt 生成的结果打分，并指导 gpt 生成符合人类倾向的回答，如果那些自产的数据质量不高的话，可以在这阶段消除。

otakustay

2023-02-16 11:54:59 +08:00

GPT 的优势就是能自产自销进化，你把这个干掉还玩啥 GPT