V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
xwhxbg
V2EX  ›  分享创造

空手套图术~

  •  
  •   xwhxbg · 2018-01-24 14:14:31 +08:00 · 11660 次点击
    这是一个创建于 2524 天前的主题,其中的信息可能已经有所发展或是发生改变。

    上次请教了大家关于平胸妹子鉴黄的问题,调整了一下训练数据集之后又练了个模型 120.78.173.99:4000/tryout 这里可以体验一下,手机端和 PC 端访问都做了适配,后续等我把代码整理一下就丢 gayhub 上了(由于是二手 py,所以会比较丑)

    同时收一波训练素材:doge

    第 1 条附言  ·  2018-01-24 15:23:30 +08:00
    我这个是 1 核 1G 的哈,鉴定会有点慢,而且如果同时鉴定过多可能会卡返回 500 了就

    另外就是 API 大家可以放心 hack,直接打开 Chrome dev tools 看请求参数就行,没有经过加密的,js 也是,如果你用 mithril 是可以直接 copy 过去用的。

    用图砸死我吧~O(∩_∩)O
    第 2 条附言  ·  2018-01-24 15:27:51 +08:00
    有些报错 500 的是因为图的格式有问题,没法解析导致的,目前发现两个图,应该都是 URL 上来的
    第 3 条附言  ·  2018-01-24 15:42:52 +08:00
    不要放敏感信息的图啊,例如包含你的私人信息的,身份证,银行卡照片

    来自于网络的图片 URL,和收集的表情包应该没问题
    第 4 条附言  ·  2018-01-24 16:21:22 +08:00
    目前已知的问题:

    1.由于训练样本覆盖不够,男性,原始人,多人图会容易误判
    2.格式不对的图片会导致 500 报错,但是错误信息没有返回给前端
    第 5 条附言  ·  2018-01-24 16:41:55 +08:00
    3.由于 CPU 配置太低,进场 CPU 跑满,线上使用需要用带 GPU 的服务器
    4.CPU 占用过高时会导致前端访问页面的请求也 hang 住
    第 6 条附言  ·  2018-01-25 13:30:49 +08:00
    发现有一些同学试图用.php 文件来 hack 我的服务器,等我整理好了代码就会开源出来的,没必要 hack 哈
    69 条回复    2018-01-29 20:44:36 +08:00
    tinytin
        1
    tinytin  
       2018-01-24 14:19:13 +08:00
    我是素材
    sennes
        2
    sennes  
       2018-01-24 14:51:44 +08:00   ❤️ 1
    刚刚试了 4 张图 分别检测的话
    NSFW 0.004 0.004 0.118 0.003
    但是拼成一张图之后
    NSFW 0.890
    f2f2f
        3
    f2f2f  
       2018-01-24 15:02:10 +08:00
    1#头像 0.4114783704280853
    northisland
        4
    northisland  
       2018-01-24 15:05:49 +08:00
    Something is not right.
    Error:
    Internal Server Error
    The server encountered an internal error and was unable to complete your request. Either the server is overloaded or there is an error in the application.
    tghgffdgd
        5
    tghgffdgd  
       2018-01-24 15:08:56 +08:00   ❤️ 1
    这个时候是不是应该来个“已屏蔽”
    xwhxbg
        6
    xwhxbg  
    OP
       2018-01-24 15:09:06 +08:00
    @sennes 我去看看图:doge
    @f2f2f 0.4 说明不黄,不过 0.4 有点太高了
    @northisland URL 还是上传?
    xwhxbg
        7
    xwhxbg  
    OP
       2018-01-24 15:13:47 +08:00
    @tghgffdgd 不黄的我也要
    Weny
        8
    Weny  
       2018-01-24 15:13:51 +08:00 via iPhone
    当然是去草榴抓
    xwhxbg
        9
    xwhxbg  
    OP
       2018-01-24 15:17:52 +08:00
    @Weny 不黄的也要啊,两边都要才能训练
    我这 1 核 1G 的貌似快被搞挂了
    Willjim
        10
    Willjim  
       2018-01-24 15:38:52 +08:00 via Android
    楼主,放的几个健身男的图,似乎有 0.5?要不要加胡须识别?而且网站 icon 是守望?🤔
    xwhxbg
        11
    xwhxbg  
    OP
       2018-01-24 15:46:54 +08:00
    @Willjim 其实 0.3-0.7 之前都属于 sexy 的范畴,实际运用的时候我把这些图标记黄图,但是需要人工审核,至于产品去不去审核那就......
    xwhxbg
        12
    xwhxbg  
    OP
       2018-01-24 15:47:30 +08:00
    @Willjim icon 是在 open favicon 下载的,理论上上面都是免费的,yes,是守望先锋
    Willjim
        13
    Willjim  
       2018-01-24 15:51:49 +08:00 via Android
    @xwhxbg 刚刚有张网上找的健身自拍图,高达 0.84😅而且 0.3-0.7 范围太广了吧,产品会审怕是难。
    taurenshaman
        14
    taurenshaman  
       2018-01-24 15:53:30 +08:00   ❤️ 5
    taurenshaman
        15
    taurenshaman  
       2018-01-24 15:54:51 +08:00
    呃,是 NSFW 值
    xwhxbg
        16
    xwhxbg  
    OP
       2018-01-24 16:11:59 +08:00
    @taurenshaman emmm 这个明显是 bug,不确定是不是因为我的素材里没有单纯的身体局部导致的
    xwhxbg
        17
    xwhxbg  
    OP
       2018-01-24 16:13:29 +08:00
    @Willjim 这就很可疑了,我的训练素材男性非常少,应该是个 bug
    onionnews
        18
    onionnews  
       2018-01-24 16:14:56 +08:00 via Android
    已经开始飙车了
    keithszc
        19
    keithszc  
       2018-01-24 16:16:24 +08:00
    可怕
    Weny
        20
    Weny  
       2018-01-24 16:20:06 +08:00 via iPhone
    @xwhxbg 楼主 开一个众审核通道 这么辣眼睛的图片 不能只能让你一个人打标签 hhhhh
    Weny
        21
    Weny  
       2018-01-24 16:20:43 +08:00 via iPhone
    @taurenshaman 真的怕
    kenshinhu
        22
    kenshinhu  
       2018-01-24 16:23:44 +08:00
    服务器好像不能访问了?
    gamexg
        23
    gamexg  
       2018-01-24 16:26:44 +08:00
    没填 url 就点了提交,然后就打不开了...
    xwhxbg
        24
    xwhxbg  
    OP
       2018-01-24 16:29:01 +08:00
    @Weny 1 核 1G 扛不住啊,跑这个已经占了一半内存了
    @kenshinhu 我这边恢复了,刚才触发了个 bug 导致进程 hang 住了
    @gamexg 现在应该好了
    skyrem
        25
    skyrem  
       2018-01-24 16:31:35 +08:00
    google 搜 GAY 然后贴上的基本都 NSFW
    zo
        26
    zo  
       2018-01-24 16:37:36 +08:00
    这就直接开车了。。。
    zst
        27
    zst  
       2018-01-24 16:39:52 +08:00 via Android
    其实我想说有些我自己都不知道算不算小黄图
    mcone
        28
    mcone  
       2018-01-24 16:42:17 +08:00
    啊 看到楼主头像我就想到你之前那个剑皇帖子了 果然还是你哈哈 随手找了几个关键词搜了十几张图丢了上去 感觉比我想象的好不少……哈哈
    话说这个结果不太像是用 3k 样本训练出来的。。。能大概透露下训练样本数和方法吗,直接用已训练好的模型,finetune 一下?难道是直接训练出来的吗(惊恐)
    不过有一些 NSFW 本身就涵盖过的图片类别在你这里反而结果有点奇怪 感觉你应该微调了啥……
    xwhxbg
        29
    xwhxbg  
    OP
       2018-01-24 16:52:01 +08:00
    @mcone 确实只有 3K,用的 nn.softmax,数据处理参考的 open-nsfw,它有个方法用来处理数据矩阵的,然而由于我数学渣渣,看不懂为啥要这么做,目前感觉可能是样本太少导致很多图的结果很奇怪,多人图,身体局部图都很奇怪
    kingcc
        30
    kingcc  
       2018-01-24 16:53:47 +08:00
    火钳刘明
    jarnanchen
        31
    jarnanchen  
       2018-01-24 17:07:56 +08:00
    给楼主 贡献了几张大胸肌肉男,NSFW 0.48 算不算黄啊
    Travers
        32
    Travers  
       2018-01-24 17:15:14 +08:00
    传了个 22600082070.jpg ,才 0.09 ,楼主可以看下
    Travers
        33
    Travers  
       2018-01-24 17:17:35 +08:00
    还有个 22600082078.jpg NSFW 0.078 问题比较大
    R18
        34
    R18  
       2018-01-24 17:17:37 +08:00 via Android
    老哥有源码了求艾特
    mcone
        35
    mcone  
       2018-01-24 17:24:50 +08:00
    @xwhxbg 完全自己训练的吗……那这个结果其实已经不错了 才 3k 数据量要啥自行车(哈哈哈哈) 不过通常 nn.softmax 用于多类 你的样本太少了 有空的话可以改 sigmod 试试看

    那个处理数据矩阵的方法我不太清楚,回头等你开源了我围观下吧,毕竟不是做黄图的对这块还真是不太了解……
    至于我上条回复提到的类别的是 athlete,可能你的训练样本里不够多,很多露肉运动员被搞成了黄图……但是我不确定直接加一些类似样本会不会有帮助,因为你数据太少了,加的多了反而可能对你模型有负效果……
    xwhxbg
        36
    xwhxbg  
    OP
       2018-01-24 17:34:24 +08:00
    @mcone Will do,现在主要是我没有理论支撑,单纯靠调参或者调方法可能不能达到一个可行的高度,而且 py 的性能问题也很突出,目前想要把训练好的模型用 golang 的 TensorFlow binding 来调用,不知道会不会有明显的区别

    athlete 这个问题其实蛮严重的,我看了下我收到的结果波动很大,有些 NSFW 被打的很高,有些很低,跟我预想的能节约 90%以上的人力成本差的很有点远,目前看来能节约 50%就不错了

    目前在看 https://www.coursera.org/learn/machine-learning 这个课程想要补一下入门知识,现在只恨时间太少,白天还要搬砖,搞完不知猴年马月了
    xwhxbg
        37
    xwhxbg  
    OP
       2018-01-24 17:35:05 +08:00
    @Travers 好的,我等下班了会把分类的图和标签都下下来分析一下的
    gh110827
        38
    gh110827  
       2018-01-24 17:36:53 +08:00
    楼主,我这有个接口,大概是 6000 多张图,都是煎蛋上的,你可已用来当素材训练
    https://ie34.com/api/jiandan
    AckywOw
        39
    AckywOw  
       2018-01-24 17:58:56 +08:00
    老司机带带偶🤓
    owlsec
        40
    owlsec  
       2018-01-24 18:11:48 +08:00
    流弊
    Level5
        41
    Level5  
       2018-01-24 19:08:10 +08:00
    开源不? 作为遵从人本性出发,LZ 应该贡献源代码让我们反其道而行....😂
    imn1
        42
    imn1  
       2018-01-24 19:24:18 +08:00
    自己去找力武靖的图吧,不过我没有,收这些图有风险,也没这样的嗜好
    不是平凶的倒很多
    xwhxbg
        43
    xwhxbg  
    OP
       2018-01-24 19:48:00 +08:00
    @gh110827 试了下好像一次只能拿一个
    @Level5 还得整理一下代码,目前性能问题也很大,准备用 go 重构
    zonghua
        44
    zonghua  
       2018-01-24 20:09:47 +08:00 via iPhone
    @taurenshaman 地铁上我点开了这个图。。。z
    sobigfish
        45
    sobigfish  
       2018-01-24 20:10:20 +08:00
    @gh110827 #38 的煎蛋里的图 006rN2x6gy1fibr74qjnnj30ks0rr75r 这个 0.26040464639663696 emmmmmm
    AlisaDestiny
        46
    AlisaDestiny  
       2018-01-24 22:24:43 +08:00
    百度随便找了个图:
    http://g.hiphotos.baidu.com/image/pic/item/c8ea15ce36d3d539f09733493187e950342ab095.jpg

    NSFW
    0.21911317110061646
    SFW
    0.7808868288993835
    mingyun
        47
    mingyun  
       2018-01-25 00:03:32 +08:00
    @gh110827 这个可以
    wjm2038
        48
    wjm2038  
       2018-01-25 01:45:59 +08:00 via Android
    @gh110827 这借口只能返回一个结果么。。
    baskice
        49
    baskice  
       2018-01-25 06:20:13 +08:00
    感觉效果还可以,至少比新浪微博的判断准确率高
    glchaos
        50
    glchaos  
       2018-01-25 08:47:54 +08:00
    老衲差点圆寂在你们的回复中
    opengps
        51
    opengps  
       2018-01-25 09:14:21 +08:00
    题主收集 H 图的能力非常的可以
    cat9life
        52
    cat9life  
       2018-01-25 09:17:25 +08:00
    这空手套图术果然 6
    Felldeadbird
        53
    Felldeadbird  
       2018-01-25 09:21:32 +08:00
    @mingyun 哇~一大早上班就看到这个。我是 AI 估计受不了了。
    lingyv
        54
    lingyv  
       2018-01-25 09:29:10 +08:00
    不错,用的啥模型?
    xwhxbg
        55
    xwhxbg  
    OP
       2018-01-25 09:32:37 +08:00
    @baskice 不会吧,微博我用的少,不过按理说那么大的公司做出来肯定比个人做强很多
    @opengps 昨天看了一下大部分都是不 H 的图
    @lingyv nn.softmax
    xiaojunjor
        56
    xiaojunjor  
       2018-01-25 09:39:59 +08:00
    别关门,别关门,我上错车了。。我先下去
    gh110827
        57
    gh110827  
       2018-01-25 10:27:23 +08:00
    @xwhxbg 有 csv 文件
    链接: https://pan.baidu.com/s/1htdZjI8 密码: fiev
    lingyv
        58
    lingyv  
       2018-01-25 10:28:08 +08:00
    @xwhxbg 没用卷积?
    gh110827
        59
    gh110827  
       2018-01-25 10:29:22 +08:00
    我的那个接口是从数据库随机返回一个图片,准备做个应用,可以无限看图的,太懒还没写
    xwhxbg
        60
    xwhxbg  
    OP
       2018-01-25 11:23:30 +08:00
    @lingyv 据我了解 nn.softmax 应该只有一层
    lingyv
        61
    lingyv  
       2018-01-25 11:25:10 +08:00
    @xwhxbg 我是说没试过卷积模型吗?
    xwhxbg
        62
    xwhxbg  
    OP
       2018-01-25 11:26:09 +08:00
    @lingyv 没有。。。不会,还在入门阶段
    charexcalibur
        63
    charexcalibur  
       2018-01-25 11:27:58 +08:00
    我也要学机器学习!
    mikeven
        64
    mikeven  
       2018-01-25 11:46:23 +08:00 via iPhone
    reddit nsfw
    baskice
        65
    baskice  
       2018-01-25 14:58:46 +08:00
    @xwhxbg 首先运行检测有成本,再者这些大公司并不想真正杜绝 H 图,只是应付检查而已
    Zzde
        66
    Zzde  
       2018-01-25 21:36:20 +08:00
    试了几张 大部分都是 NFW
    Zzde
        67
    Zzde  
       2018-01-25 21:42:53 +08:00


    ???
    xwhxbg
        68
    xwhxbg  
    OP
       2018-01-26 09:13:52 +08:00
    @baskice 还有这种内幕。。。表示懵逼
    @Zzde 没露点的很少会被判断为 NSFW,大概。。。
    laodao1990
        69
    laodao1990  
       2018-01-29 20:44:36 +08:00 via iPhone
    教练,我想学开车
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2601 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 06:43 · PVG 14:43 · LAX 22:43 · JFK 01:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.