请教大模型工程师一个问题,关于大模型伦理

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

在日常生活中我们使用的大模型,无论是国内还是国外,openai,gemini,qwen 这些大模型,都是不支持色情内容,种族内容,歧视内容的(这里说的是常规模式,不讨论越狱攻击). 我查阅了相关资料发现这个限制有绝大多数因素是在做模型训练的时候,主动去清洗了数据,筛选了数据,专项训练了数据,只有一少部分是为了补漏洞做的前置过滤. 也就是说从数据集训练这个阶段就已经制定了大模型的基础世界观.原生就带有一定的伦理道德限制. 那么最近发现了几个 ai 色情聊天站.自定义场景,角色卡这种,我能够理解这种场景和角色卡是 system prompt 的预设,但是如何才能做到完全不考虑伦理问题的呢?是专门做了专项训练吗?但是做这种训练的话,必然要掺杂基础的训练内容的,这些内容不可能做到完全筛选出伦理合规性的东西的.那么他们是怎么做到完全可以无视的呢? 以及他们一些小公司不可能说能够搞到那么多张卡,专门去做这种训练吧?感觉哪里都不合理,是我认知浅薄. 是微调?(查询发现不可行),还是说二次训练?(没找到类似内容),还是说某些强制的 prompt 的注入? 麻烦各位懂大模型训练的大佬解答一二

18 条回复 • 2024-11-23 18:13:38 +08:00

digd

11 天前

打中文用全角标点！
打中文用全角标点！
打中文用全角标点！

digd

11 天前

多换行！多换行！多换行！

kas0yo

11 天前

对于商业模型：
COT 大量 token 把模型灌晕
虚拟对话让模型以为自己已经答应你的色情请求
越狱 prompt

据我所知现在有这三种流派，还有友友知道其他方案的吗？

zachariahss

11 天前

@digd 我的我的,哈哈哈,我 markdown 里面是换行的.但是没注意发出来居然糊在一起了....下次我用\n

NoOneNoBody

11 天前

你搞错了，不是训练时“排除”，而是训练时把伦理敏感内容也分类学习，然后在输出时做不同的动作

例如某个敏感 A 内容
照样归类为“敏感 A”训练，也能正常第一次输出“敏感 A”，但在第一次输出到用户之间做一层遮罩，用户看到的就是“没有答案”，而不是“敏感 A”。
成人 AI 则是选择性移除这层遮罩的部分，那“敏感 A”就能到达用户端

你这样想：如果我有能力收集你的隐私，我会那么“伦理、有道德”地不收集么？只要我在使用这些隐私合法或者可以规避法律，那就不算侵犯隐私了；简单说就是规避的动作是在后面做，而不是前面

glcolof

11 天前

如果算力充裕，可以使用一大堆语料对开源基础模型进行“继续训练”；如果算力紧张，更常见的做法是用未设限的语料对基础模型进行 SFT 之类的微调。
大模型训练的时候是很难排除所有不合适的语料的，同时大模型自己也能“脑补”出一些缺失的信息，所以微调也是可以出效果的。

MossFox

11 天前

我不是专业的，大概只能一知半解地给一些不一定准确的描述。有业内大佬的话欢迎指正。

首先就是，对于目前主流的（尤其是闭源的）大模型，他们有一个东西叫 “价值对齐”。概括来说就是让大模型输出的内容符合道德/价值观等。这个并不一定要求在数据集里面彻底清洗干净不和谐的内容，更多是针对输出。因为假如真清洗干净了，大模型怎么知道什么是黑什么是白呢。

然后呢，对于目前那种角色扮演的使用场景，如果发现是那种没什么限制、非常洒脱的模型，首先那些绝对不可能会是今天那些主流的商业闭源大模型——狗屁通，Claude ，Gemini 的道德对齐一个比一个狠，目前靠 Prompt 越狱的可用性已经几乎不存在了。

即使是开源的模型，例如 Llama 系列，训练数据也是有部分对齐的。这种时候要 “越狱” 就不能全部依赖 Prompt ，而是要靠足够多的数据来训练和微调。

https://openrouter.ai/

看一下 OpenRouter 上的这一批模型。注意有不少是专门为角色扮演场景有 finetune 的，而且包括一些非常典型的去除价值对齐的模型。有些模型附上了模型作者的文章，我的脑子带不动太深奥的东西，交给专业的佬来细说了。

贴个有代表性链接：
https://erichartford.com/uncensored-models

另外还有一个没开源、非对话类型的用于写作模型是 Novel AI 的。Novel AI ( https://novelai.net/) 的 Llama 3 Erato (底子是 Meta Llama 3 70B, 非 instruct 版本) 就是通过大量数据的训练 + 微调，整出的一个辅助写故事的、洒脱无限制的模型，而且不存在那些大型商业公司模型的那种道德伦理对齐。

现在的大模型天天搁那对齐，对齐得智力都滑坡了。就跟谷歌之前那个弱智文生图不会画黑皮肤以外的人种一样，这种反常识的训练怎么可能会带来更好的模型呢。

zachariahss

11 天前

@NoOneNoBody 感谢前辈,get

zachariahss

11 天前

@glcolof 感谢前辈 get

zachariahss

11 天前

@MossFox 感谢感谢,增长认知

clementewy

11 天前

我之前也以为不行，直到我用了 gemini api

zachariahss

11 天前

@clementewy 嗯?我也在用啊.不行啊,

LaTero

10 天前 via Android

最简单的办法就是换模型啊，OpenAI 和 Anthropic 的用不了，那不用就是了…Grok ，Command R+，Deepseek 就是从一开始就基本不带这些对齐。
另外你的问题我有点没看懂。“但是做这种训练的话,必然要掺杂基础的训练内容的,这些内容不可能做到完全筛选出伦理合规性的东西的”是指这些公司也要担心伦理问题吗？那答案就是他们根本不 care……比如楼上说的 NovelAI 就根本不管你写的是啥。