V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
foolever
V2EX  ›  程序员

关于定期 APP 昵称存量过审的技术问题

  •  
  •   foolever · 228 天前 · 2050 次点击
    这是一个创建于 228 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我司为了应对网络安全的审查,每隔一段时间就要对全站所有存量用户的昵称重新过一遍智能审核,因为随着时间和法律法规的变化可能会出现不一样的审核策略,几个亿的用户数据每次处理起来需要耗费不少时间和金钱,个人感觉很不友好但是又没有什么其他好的办法,想问下大家伙儿公司针对这种情况是怎么处理的呢,难道只有我司这么做么

    39 条回复    2023-09-13 21:42:39 +08:00
    RiverMud
        1
    RiverMud  
       228 天前 via iPhone
    看业务是否与昵称强相关,相关度低直接把所有昵称全随机了,以后新注册的用户也随机昵称,类似平安好车主 App 那种策略,完事。

    强相关不知道。
    hidemyself
        2
    hidemyself  
       228 天前
    个人感觉可以 记一下改昵称的时间吧
    或者,把审核放在改昵称的时候,立即校验
    yuningWang8
        3
    yuningWang8  
       228 天前
    用户修改或者用到的时候再审核呗。后者只审核活跃用户。
    sadfQED2
        4
    sadfQED2  
       228 天前
    我司,给所有用户的昵称都隐藏了。统一改成打码手机号
    yuningWang8
        5
    yuningWang8  
       228 天前
    或者只审核活跃用户。
    helone
        6
    helone  
       228 天前   ❤️ 1
    @hidemyself 这个跟时间无关,举个例子,比如同志这个词,几十年前很正常,现在就...有很多类似的新敏感词,以前昵称叫这个没问题,但是现在叫这个就不行,所以过段时间需要全量在过一遍
    foolever
        7
    foolever  
    OP
       228 天前
    @RiverMud 这种方案不可能被通过,我们是做社交的,自定义昵称是业务的必需元素
    foolever
        8
    foolever  
    OP
       228 天前
    @hidemyself 改昵称每次都会审核的,现在说的是存量的昵称,因为有可能审核的策略更新了导致了以前通过的现在通不过了
    foolever
        9
    foolever  
    OP
       228 天前
    @yuningWang8 我们有些推荐的算法会将一些不活跃的用户也会曝光出去
    foolever
        10
    foolever  
    OP
       228 天前
    @helone 是的是的就是这个道理,但是每次全量过一来时间比较长,二来费用也不小(用的第三方智能审核)
    kkk9
        11
    kkk9  
       228 天前
    按活跃度排序,建立一个过审池,推荐算法从池里拿。

    增加改名卡,收费改名,一年免费改一次。
    fanyingmao
        12
    fanyingmao  
       228 天前
    存量的问题无解,我司处理是要定期跑一遍全库,还有就是每次登录都检查昵称。
    me1onsoda
        13
    me1onsoda  
       228 天前
    全量审查必然时间间隔长,那在这段时间间隔内的漏网之鱼怎么办呢,放着不管?这个方案有点骗自己的意思
    James2099
        14
    James2099  
       228 天前
    人工智能与人工审核结合
    James2099
        15
    James2099  
       228 天前
    审查
    ashe900501
        16
    ashe900501  
       228 天前
    个人感觉可行的方法就是把第三方的改成自己的.我不太了解,但是感觉这个东西会有很高深的东西吗?不就是敏感词库吗?
    tutudou
        17
    tutudou  
       228 天前   ❤️ 1
    给审核策略一个版本号,比如为 1 ,以后每次策略更新就+1 。然后给用户数据库增加一个字段 is_check ,值为审核策略的版本号。这样每次登录的时候就检测两者是否相等,不相等的对用户的昵称过一遍智能审核。如果非要活跃用户和不活跃用户都得重新审核的话,除了全库,没别的办法。
    gransh
        18
    gransh  
       228 天前
    很好奇这种法律法规的变化又不会明着规定,是怎么限制到你们企业的?违规了是会罚款吗?不管让他们警告了再整改行不行。。
    jsq2627
        19
    jsq2627  
       228 天前 via iPhone
    既然是做社交的,那肯定不止昵称吧,存量内容也要定期全量重审吧
    每次全量重审的成本费用很高,所以现在普遍选择按时间一刀切,几个月前的内容全部隐藏。
    jsq2627
        20
    jsq2627  
       228 天前 via iPhone
    @gransh 约谈,罚款,整改,关停。按照严重程度和累犯情况有不一样的处罚。
    在不同时期有不一样的执法力度
    很多企业会用注册墙、付费墙等规避执法(很普遍)
    jsq2627
        21
    jsq2627  
       228 天前 via iPhone
    @ashe900501 现在一般是敏感词库+AI 模型双管齐下。维护词库和模型需要数据积累和人力投入,互联网大厂自建这套体系还行,普通企业想自建成本就比较高了,一般都是买服务。
    jsq2627
        22
    jsq2627  
       228 天前 via iPhone
    @ashe900501 敏感词库维护有时候也不容易,太严格了会导致很多正常内容发不出来。所以具体执行还有很多细分策略,必要时人工审核介入。
    jsq2627
        23
    jsq2627  
       228 天前 via iPhone   ❤️ 1
    我觉得一种可行的方案:存量数据要先区分冷热,例如访问频次、重要程度等。热数据每次都全量跑审核,冷数据采用 lazy evaluate 策略,即每次向用户展示时再调用审核接口,缓存结果。
    ashe900501
        24
    ashe900501  
       228 天前
    @jsq2627 这个要看应用场景,我觉得昵称这个场景敏感词库就可以搞定了.
    你说的 AI 的如果说是语音,图片识别,或者大段内容识别.
    我们之前应对网络安全审查就是直接网上下载的敏感词库,然后过滤一下.放数据库就完事了.
    网络安全审查是审查你有没有这个机制,你有就可以了,即便偶尔出现一个问题,那也只是没有及时更新,也不是啥大事.

    个人观点哈,仅供参考
    dddd1919
        25
    dddd1919  
       228 天前
    找智能审核的公司买断一套本地化部署?
    jsq2627
        26
    jsq2627  
       228 天前 via iPhone
    @ashe900501 我是作为公司代表参加过 wxb 约谈的,我的感受是,又没有这些机制、整改方式都是次要的,能创造罚没收入才是他们最大的政绩
    jsq2627
        27
    jsq2627  
       228 天前 via iPhone
    @ashe900501 而且当时还是广州 wxb ,属于执法相对文明的地方。

    话说回来,网上随便就能搞到的词库,质量还是太差了,跟不上时代的变化。

    对于昵称场景,敏感词库确实足够了,前提是文本要做预处理
    coreki
        28
    coreki  
       228 天前
    所有用户的昵称,展示的时候,才检测一下是否合规。检测过的加个 lastCheckTime 作为标识。
    micate
        29
    micate  
       228 天前
    考虑昵称曝光时增加数据统计,定期审核只针对指定时间内曝光的昵称进行处理;未曝光的昵称也没有审核的必要。
    毕竟几个亿应该不是日活吧 。。。
    murmur
        30
    murmur  
       227 天前
    几个亿的用户怎么会来 V 站问你,顺便提醒你一下,就是人工审核,原神的昵称更改之后不会立刻生效,包括家园布局,所有可能 UGC 的地方都是先审再生效。
    ashe900501
        31
    ashe900501  
       227 天前
    @jsq2627 我的看法是这些东西没有标准,且根据个人意志转移.
    举个例子:"鲍鱼",这是敏感词不,有的人觉得是,有的人觉得不是.那么觉得是的人就是龌龊.
    他如果说你什么关键词没做好.那就让他出标准,你告诉我啥是敏感词.如果你不能告知,那我们也没办法.
    我玩个页游,角色昵称是系统自动生成的,然后点击创建,告诉我有敏感词.我才知道,现在"翠"已经成了敏感词了.哈哈
    proxychains
        32
    proxychains  
       227 天前
    @jsq2627 请教下 `注册墙、付费墙` 是指?
    dode
        33
    dode  
       227 天前 via Android
    单独把昵称拿出来,放在 kafka 里面定期检查,顺序 IO 很快的
    dode
        34
    dode  
       227 天前 via Android
    客户端做一些基础的昵称检查
    654656413245
        35
    654656413245  
       227 天前 via iPhone
    增加开关,默认开启
    开关开启时,昵称仅个人可见,其他人只能看到映射后的字符串
    开关可以被用户关闭,关闭时触发审核
    yolee599
        36
    yolee599  
       227 天前
    参考百度贴吧,把之前没审过的数据全部清除 [doge]
    fruitmonster
        37
    fruitmonster  
       227 天前
    @RiverMud 你这··· 昵称的意义是啥啊,你给随机了,不就失去了昵称的意义么
    fruitmonster
        38
    fruitmonster  
       227 天前
    @foolever
    1 、那就在用户登录的时候根据规则检查
    2 、或者在曝光昵称的地方增加审核,反正曝光了昵称就检查是否合法
    deorth
        39
    deorth  
       227 天前 via Android
    特色
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2387 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 16:08 · PVG 00:08 · LAX 09:08 · JFK 12:08
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.