我司为了应对网络安全的审查,每隔一段时间就要对全站所有存量用户的昵称重新过一遍智能审核,因为随着时间和法律法规的变化可能会出现不一样的审核策略,几个亿的用户数据每次处理起来需要耗费不少时间和金钱,个人感觉很不友好但是又没有什么其他好的办法,想问下大家伙儿公司针对这种情况是怎么处理的呢,难道只有我司这么做么
1
RiverMud 2023-09-12 18:46:41 +08:00 via iPhone
看业务是否与昵称强相关,相关度低直接把所有昵称全随机了,以后新注册的用户也随机昵称,类似平安好车主 App 那种策略,完事。
强相关不知道。 |
2
hidemyself 2023-09-12 18:47:57 +08:00
个人感觉可以 记一下改昵称的时间吧
或者,把审核放在改昵称的时候,立即校验 |
3
yuningWang8 2023-09-12 18:50:41 +08:00
用户修改或者用到的时候再审核呗。后者只审核活跃用户。
|
4
sadfQED2 2023-09-12 18:51:05 +08:00
我司,给所有用户的昵称都隐藏了。统一改成打码手机号
|
5
yuningWang8 2023-09-12 18:51:12 +08:00
或者只审核活跃用户。
|
6
helone 2023-09-12 18:55:36 +08:00 1
@hidemyself 这个跟时间无关,举个例子,比如同志这个词,几十年前很正常,现在就...有很多类似的新敏感词,以前昵称叫这个没问题,但是现在叫这个就不行,所以过段时间需要全量在过一遍
|
8
foolever OP @hidemyself 改昵称每次都会审核的,现在说的是存量的昵称,因为有可能审核的策略更新了导致了以前通过的现在通不过了
|
9
foolever OP @yuningWang8 我们有些推荐的算法会将一些不活跃的用户也会曝光出去
|
11
kkk9 2023-09-12 19:16:33 +08:00
按活跃度排序,建立一个过审池,推荐算法从池里拿。
增加改名卡,收费改名,一年免费改一次。 |
12
fanyingmao 2023-09-12 19:17:04 +08:00
存量的问题无解,我司处理是要定期跑一遍全库,还有就是每次登录都检查昵称。
|
13
me1onsoda 2023-09-12 19:31:49 +08:00
全量审查必然时间间隔长,那在这段时间间隔内的漏网之鱼怎么办呢,放着不管?这个方案有点骗自己的意思
|
14
lDqe4OE6iOEUQNM7 2023-09-12 19:32:23 +08:00
人工智能与人工审核结合
|
15
lDqe4OE6iOEUQNM7 2023-09-12 19:32:36 +08:00
审查
|
16
user9121 2023-09-12 19:38:40 +08:00
个人感觉可行的方法就是把第三方的改成自己的.我不太了解,但是感觉这个东西会有很高深的东西吗?不就是敏感词库吗?
|
17
tutudou 2023-09-12 20:45:52 +08:00 1
给审核策略一个版本号,比如为 1 ,以后每次策略更新就+1 。然后给用户数据库增加一个字段 is_check ,值为审核策略的版本号。这样每次登录的时候就检测两者是否相等,不相等的对用户的昵称过一遍智能审核。如果非要活跃用户和不活跃用户都得重新审核的话,除了全库,没别的办法。
|
18
gransh 2023-09-12 20:50:47 +08:00
很好奇这种法律法规的变化又不会明着规定,是怎么限制到你们企业的?违规了是会罚款吗?不管让他们警告了再整改行不行。。
|
19
jsq2627 2023-09-12 20:58:04 +08:00 via iPhone
既然是做社交的,那肯定不止昵称吧,存量内容也要定期全量重审吧
每次全量重审的成本费用很高,所以现在普遍选择按时间一刀切,几个月前的内容全部隐藏。 |
20
jsq2627 2023-09-12 21:02:03 +08:00 via iPhone
|
21
jsq2627 2023-09-12 21:06:48 +08:00 via iPhone
@ashe900501 现在一般是敏感词库+AI 模型双管齐下。维护词库和模型需要数据积累和人力投入,互联网大厂自建这套体系还行,普通企业想自建成本就比较高了,一般都是买服务。
|
22
jsq2627 2023-09-12 21:09:07 +08:00 via iPhone
@ashe900501 敏感词库维护有时候也不容易,太严格了会导致很多正常内容发不出来。所以具体执行还有很多细分策略,必要时人工审核介入。
|
23
jsq2627 2023-09-12 21:14:15 +08:00 via iPhone 1
我觉得一种可行的方案:存量数据要先区分冷热,例如访问频次、重要程度等。热数据每次都全量跑审核,冷数据采用 lazy evaluate 策略,即每次向用户展示时再调用审核接口,缓存结果。
|
24
user9121 2023-09-12 21:46:12 +08:00
@jsq2627 这个要看应用场景,我觉得昵称这个场景敏感词库就可以搞定了.
你说的 AI 的如果说是语音,图片识别,或者大段内容识别. 我们之前应对网络安全审查就是直接网上下载的敏感词库,然后过滤一下.放数据库就完事了. 网络安全审查是审查你有没有这个机制,你有就可以了,即便偶尔出现一个问题,那也只是没有及时更新,也不是啥大事. 个人观点哈,仅供参考 |
25
dddd1919 2023-09-12 21:48:56 +08:00
找智能审核的公司买断一套本地化部署?
|
26
jsq2627 2023-09-12 21:55:23 +08:00 via iPhone
@ashe900501 我是作为公司代表参加过 wxb 约谈的,我的感受是,又没有这些机制、整改方式都是次要的,能创造罚没收入才是他们最大的政绩
|
27
jsq2627 2023-09-12 21:59:33 +08:00 via iPhone
|
28
coreki 2023-09-12 23:24:03 +08:00
所有用户的昵称,展示的时候,才检测一下是否合规。检测过的加个 lastCheckTime 作为标识。
|
29
micate 2023-09-12 23:28:22 +08:00
考虑昵称曝光时增加数据统计,定期审核只针对指定时间内曝光的昵称进行处理;未曝光的昵称也没有审核的必要。
毕竟几个亿应该不是日活吧 。。。 |
30
murmur 2023-09-13 08:16:41 +08:00
几个亿的用户怎么会来 V 站问你,顺便提醒你一下,就是人工审核,原神的昵称更改之后不会立刻生效,包括家园布局,所有可能 UGC 的地方都是先审再生效。
|
31
user9121 2023-09-13 09:06:46 +08:00
@jsq2627 我的看法是这些东西没有标准,且根据个人意志转移.
举个例子:"鲍鱼",这是敏感词不,有的人觉得是,有的人觉得不是.那么觉得是的人就是龌龊. 他如果说你什么关键词没做好.那就让他出标准,你告诉我啥是敏感词.如果你不能告知,那我们也没办法. 我玩个页游,角色昵称是系统自动生成的,然后点击创建,告诉我有敏感词.我才知道,现在"翠"已经成了敏感词了.哈哈 |
32
proxychains 2023-09-13 10:36:07 +08:00
@jsq2627 请教下 `注册墙、付费墙` 是指?
|
33
dode 2023-09-13 12:40:15 +08:00 via Android
单独把昵称拿出来,放在 kafka 里面定期检查,顺序 IO 很快的
|
34
dode 2023-09-13 12:41:32 +08:00 via Android
客户端做一些基础的昵称检查
|
35
654656413245 2023-09-13 12:56:11 +08:00 via iPhone
增加开关,默认开启
开关开启时,昵称仅个人可见,其他人只能看到映射后的字符串 开关可以被用户关闭,关闭时触发审核 |
36
yolee599 2023-09-13 16:27:54 +08:00
参考百度贴吧,把之前没审过的数据全部清除 [doge]
|
37
fruitmonster 2023-09-13 16:33:03 +08:00
@RiverMud 你这··· 昵称的意义是啥啊,你给随机了,不就失去了昵称的意义么
|
38
fruitmonster 2023-09-13 16:36:42 +08:00
|
39
deorth 2023-09-13 21:42:39 +08:00 via Android
特色
|