理论上来讲是可以做个模型来尝试筛选出有可能是 chatGPT 生成的内容,从 OpenAI 对其的说明中可以看出,尤其是 [Limitations](
https://openai.com/blog/chatgpt/#:~:text=AI%20supercomputing%C2%A0infrastructure.-,Limitations,-ChatGPT%20sometimes%20writes) 部分,目前其生成的内容还是有较为明显的特征的。但重难点是如何快速收集足够且有效的正反例数据。
下面我简单描述一下这些 limitations:
- 生成的内容有时会看似合理但实则错误或者毫无意义,就像大家说的套话;
- 模型对输入扰动比较敏感,即我在之前其他帖子的回复中说过的 LLM 普遍存在的稳定性问题,你换个词或者多个少个标点都可能导致回答差别较大;
- 生成的内容通常较长且容易总是重复某些话,比如总是重申自己是一个 OpenAI 训练的语言模型。仍然和数据有关,training data bias ,GIGO ;
- 当你问一个摸棱两可的问题的时候,模型通常会自己猜测你的意图,而不是让你澄清;
- 可能会回应那些有害请求。