关于定期 APP 昵称存量过审的技术问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 548 天前的主题，其中的信息可能已经有所发展或是发生改变。

我司为了应对网络安全的审查，每隔一段时间就要对全站所有存量用户的昵称重新过一遍智能审核，因为随着时间和法律法规的变化可能会出现不一样的审核策略，几个亿的用户数据每次处理起来需要耗费不少时间和金钱，个人感觉很不友好但是又没有什么其他好的办法，想问下大家伙儿公司针对这种情况是怎么处理的呢，难道只有我司这么做么

昵称

存量

全站

审核

39 条回复 • 2023-09-13 21:42:39 +08:00

RiverMud

2023-09-12 18:46:41 +08:00 via iPhone

看业务是否与昵称强相关，相关度低直接把所有昵称全随机了，以后新注册的用户也随机昵称，类似平安好车主 App 那种策略，完事。

强相关不知道。

hidemyself

2023-09-12 18:47:57 +08:00

个人感觉可以记一下改昵称的时间吧
或者，把审核放在改昵称的时候，立即校验

yuningWang8

2023-09-12 18:50:41 +08:00

用户修改或者用到的时候再审核呗。后者只审核活跃用户。

sadfQED2

2023-09-12 18:51:05 +08:00

我司，给所有用户的昵称都隐藏了。统一改成打码手机号

yuningWang8

2023-09-12 18:51:12 +08:00

或者只审核活跃用户。

helone

2023-09-12 18:55:36 +08:00

@hidemyself 这个跟时间无关，举个例子，比如同志这个词，几十年前很正常，现在就...有很多类似的新敏感词，以前昵称叫这个没问题，但是现在叫这个就不行，所以过段时间需要全量在过一遍

foolever

2023-09-12 18:57:29 +08:00

@RiverMud 这种方案不可能被通过，我们是做社交的，自定义昵称是业务的必需元素

foolever

2023-09-12 18:58:45 +08:00

@hidemyself 改昵称每次都会审核的，现在说的是存量的昵称，因为有可能审核的策略更新了导致了以前通过的现在通不过了

foolever

2023-09-12 18:59:51 +08:00

@yuningWang8 我们有些推荐的算法会将一些不活跃的用户也会曝光出去

foolever

2023-09-12 19:00:57 +08:00

@helone 是的是的就是这个道理，但是每次全量过一来时间比较长，二来费用也不小（用的第三方智能审核）

kkk9

2023-09-12 19:16:33 +08:00

按活跃度排序，建立一个过审池，推荐算法从池里拿。

增加改名卡，收费改名，一年免费改一次。

fanyingmao

2023-09-12 19:17:04 +08:00

存量的问题无解，我司处理是要定期跑一遍全库，还有就是每次登录都检查昵称。

me1onsoda

2023-09-12 19:31:49 +08:00

全量审查必然时间间隔长，那在这段时间间隔内的漏网之鱼怎么办呢，放着不管？这个方案有点骗自己的意思

lDqe4OE6iOEUQNM7

2023-09-12 19:32:23 +08:00

人工智能与人工审核结合

lDqe4OE6iOEUQNM7

2023-09-12 19:32:36 +08:00

审查

user9121

2023-09-12 19:38:40 +08:00

个人感觉可行的方法就是把第三方的改成自己的.我不太了解,但是感觉这个东西会有很高深的东西吗?不就是敏感词库吗?

tutudou

2023-09-12 20:45:52 +08:00

给审核策略一个版本号，比如为 1 ，以后每次策略更新就+1 。然后给用户数据库增加一个字段 is_check ，值为审核策略的版本号。这样每次登录的时候就检测两者是否相等，不相等的对用户的昵称过一遍智能审核。如果非要活跃用户和不活跃用户都得重新审核的话，除了全库，没别的办法。

gransh

2023-09-12 20:50:47 +08:00

很好奇这种法律法规的变化又不会明着规定，是怎么限制到你们企业的？违规了是会罚款吗？不管让他们警告了再整改行不行。。

jsq2627

2023-09-12 20:58:04 +08:00 via iPhone

既然是做社交的，那肯定不止昵称吧，存量内容也要定期全量重审吧
每次全量重审的成本费用很高，所以现在普遍选择按时间一刀切，几个月前的内容全部隐藏。

jsq2627

2023-09-12 21:02:03 +08:00 via iPhone

@gransh 约谈，罚款，整改，关停。按照严重程度和累犯情况有不一样的处罚。
在不同时期有不一样的执法力度
很多企业会用注册墙、付费墙等规避执法（很普遍）

jsq2627

2023-09-12 21:06:48 +08:00 via iPhone

@ashe900501 现在一般是敏感词库+AI 模型双管齐下。维护词库和模型需要数据积累和人力投入，互联网大厂自建这套体系还行，普通企业想自建成本就比较高了，一般都是买服务。

jsq2627

2023-09-12 21:09:07 +08:00 via iPhone

@ashe900501 敏感词库维护有时候也不容易，太严格了会导致很多正常内容发不出来。所以具体执行还有很多细分策略，必要时人工审核介入。

jsq2627

2023-09-12 21:14:15 +08:00 via iPhone

我觉得一种可行的方案：存量数据要先区分冷热，例如访问频次、重要程度等。热数据每次都全量跑审核，冷数据采用 lazy evaluate 策略，即每次向用户展示时再调用审核接口，缓存结果。

user9121

2023-09-12 21:46:12 +08:00

@jsq2627 这个要看应用场景,我觉得昵称这个场景敏感词库就可以搞定了.
你说的 AI 的如果说是语音,图片识别,或者大段内容识别.
我们之前应对网络安全审查就是直接网上下载的敏感词库,然后过滤一下.放数据库就完事了.
网络安全审查是审查你有没有这个机制,你有就可以了,即便偶尔出现一个问题,那也只是没有及时更新,也不是啥大事.

个人观点哈,仅供参考

dddd1919

2023-09-12 21:48:56 +08:00

找智能审核的公司买断一套本地化部署？

jsq2627

2023-09-12 21:55:23 +08:00 via iPhone

@ashe900501 我是作为公司代表参加过 wxb 约谈的，我的感受是，又没有这些机制、整改方式都是次要的，能创造罚没收入才是他们最大的政绩

jsq2627

2023-09-12 21:59:33 +08:00 via iPhone

@ashe900501 而且当时还是广州 wxb ，属于执法相对文明的地方。

话说回来，网上随便就能搞到的词库，质量还是太差了，跟不上时代的变化。

对于昵称场景，敏感词库确实足够了，前提是文本要做预处理

coreki

2023-09-12 23:24:03 +08:00

所有用户的昵称，展示的时候，才检测一下是否合规。检测过的加个 lastCheckTime 作为标识。

micate

2023-09-12 23:28:22 +08:00

考虑昵称曝光时增加数据统计，定期审核只针对指定时间内曝光的昵称进行处理；未曝光的昵称也没有审核的必要。
毕竟几个亿应该不是日活吧。。。

murmur

2023-09-13 08:16:41 +08:00

几个亿的用户怎么会来 V 站问你，顺便提醒你一下，就是人工审核，原神的昵称更改之后不会立刻生效，包括家园布局，所有可能 UGC 的地方都是先审再生效。

user9121

2023-09-13 09:06:46 +08:00

@jsq2627 我的看法是这些东西没有标准,且根据个人意志转移.
举个例子:"鲍鱼",这是敏感词不,有的人觉得是,有的人觉得不是.那么觉得是的人就是龌龊.
他如果说你什么关键词没做好.那就让他出标准,你告诉我啥是敏感词.如果你不能告知,那我们也没办法.
我玩个页游,角色昵称是系统自动生成的,然后点击创建,告诉我有敏感词.我才知道,现在"翠"已经成了敏感词了.哈哈