V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
zhaofy
V2EX  ›  程序员

公司要用爬虫抓取数据,不知道是否侵权

  •  
  •   zhaofy · 2019-12-30 10:05:33 +08:00 · 8467 次点击
    这是一个创建于 1821 天前的主题,其中的信息可能已经有所发展或是发生改变。
    请教一下各位,领导安排一个任务,爬取别的公司网站的资讯然后发布到自己网站上,频率不高,被监测到的可能性不大;但是我看该网站资讯下面注明了非公开数据,我是不是要汇报一下领导告诉他利害关系?
    52 条回复    2019-12-31 11:41:11 +08:00
    nutting
        1
    nutting  
       2019-12-30 10:08:44 +08:00
    当然吧,领导得决策
    zr8657
        2
    zr8657  
       2019-12-30 10:15:16 +08:00
    其实爬了也就爬了,这个问题的关键是如果真被抓了必然跑不了,得的钱值不值这个风险。可以看我去年的发帖,最后我把项目拖黄跑路了
    pmispig
        3
    pmispig  
       2019-12-30 10:40:00 +08:00   ❤️ 1
    就算是领导给你发了邮件,他是主谋,真抓了你也跑不了
    hehheh
        4
    hehheh  
       2019-12-30 10:43:14 +08:00
    给他说一下啊。。。首先用邮件大概说一下(留个底),然后再到他的办公室详细说说。。。
    em70
        5
    em70  
       2019-12-30 10:44:08 +08:00
    最近被抓的爬虫公司是因为涉及爬取公民个人隐私信息,爬资讯只要不涉及人没问题,既然你都能看的,那就是公开数据了
    wingtatlee
        6
    wingtatlee  
       2019-12-30 10:45:44 +08:00
    肯定要,否則萬一出事就賴你了。如果你匯報了,就算出事也是領導的決策,你只是執行...
    wangxiaoaer
        7
    wangxiaoaer  
       2019-12-30 10:48:51 +08:00
    @em70 #5 个人隐私信息如果可以公开看的话,那么爬取还有问题?如果没有公开,那特么所谓的爬虫就是入侵了,不抓他抓谁。
    locoz
        8
    locoz  
       2019-12-30 10:54:04 +08:00
    当然侵权啊...爬别的公司网站的资讯发布到自己网站上还不算侵权的话,盗版站岂不是会更猖獗?
    bzsh
        9
    bzsh  
       2019-12-30 10:55:53 +08:00
    爬虫写得好,牢房吃的早.......现在不好搞了, 最好咨询咨询法务
    locoz
        10
    locoz  
       2019-12-30 10:56:15 +08:00
    @wangxiaoaer #7 那些搞征信的是诱导用户提供了 Cookie,然后直接拿用户的账号爬的用户自己的数据。但是没有明确告知具体爬的内容,所以有问题。
    pangleon
        11
    pangleon  
       2019-12-30 10:56:35 +08:00
    昨天不是有个热帖被抓进去了,其实楼主啥也没干,没参与出事的那个项目。
    覆巢之下,焉有完卵
    Caijl
        12
    Caijl  
       2019-12-30 11:08:20 +08:00
    我们公司以前技术部门就有人爬各药监部门的网站,后来被举报下线整改,然后公司开了一个试用期的员工,顶雷
    InternetExplorer
        13
    InternetExplorer  
       2019-12-30 11:16:01 +08:00 via Android   ❤️ 1
    不要在公司做?参考:敲领导的头三下,让领导半夜三更找你来做(・・)σ
    xytdj
        14
    xytdj  
       2019-12-30 11:16:29 +08:00   ❤️ 3
    1、邮件告知老板,对方是非公开数据,需要有授权才能抓取;
    2、如果你明知老板没有授权、但非让你抓,你也不要干,别以为老板决策你只执行没什么大不了的,夸张点,你老板决策说让你抢银行,你敢执行吗?你觉得执行了会没事儿么?
    3、如果你老板对你说有授权,那你就做吧。出了事儿你就说你提醒过,老板说有授权就行了。
    zhaofy
        15
    zhaofy  
    OP
       2019-12-30 11:25:02 +08:00
    @xytdj 刚跟领导说了,他说只抓公开的信息= =
    Myprincess
        16
    Myprincess  
       2019-12-30 11:26:16 +08:00
    你就写一个邮件:
    需求功能确认函-需确认
    X 经理 ,收到您功能需求,在开发产品实现需求之前,作为公司技术有必要与您确认一下,利用程序抓取他人网站内容有可能给公司造成侵权风险。不管对方数据是否公开,请问公司各领导是否明白并已做好准备。
    如果确认,请邮件回复同意已知悉,并请出具书面开发需求书。
    我收到后会立即着手开发。
    如在后期开发中有遇到疑问,我定当向您请教。谢。
    andylsr
        17
    andylsr  
       2019-12-30 11:41:45 +08:00 via Android
    发邮件也没用,抓你的时候你逃不了的,顶多证明你是从犯。。。
    HongJay
        18
    HongJay  
       2019-12-30 11:46:07 +08:00
    吃顿好的
    pansongya
        19
    pansongya  
       2019-12-30 11:47:48 +08:00   ❤️ 1
    做一下 数据清洗 和 伪原创不就行了 天下文章一大抄
    Sqpan2
        20
    Sqpan2  
       2019-12-30 11:56:00 +08:00 via Android
    直接说不会爬虫不就得了吗
    wdv2ly
        21
    wdv2ly  
       2019-12-30 11:57:10 +08:00
    发邮件不是恰好证明了你知法犯法??
    xiebruce
        22
    xiebruce  
       2019-12-30 13:21:23 +08:00
    某日头条不就是这么起家的么?
    Outshine
        23
    Outshine  
       2019-12-30 13:23:03 +08:00
    数据是否公开和你是否可以拿来用是两回事
    就好比项目是否开源和是否收费也是两回事
    aver4vex
        24
    aver4vex  
       2019-12-30 13:25:19 +08:00
    公开数据也不是随便就能合法的爬取的。
    Dex7er
        25
    Dex7er  
       2019-12-30 14:04:02 +08:00
    robot.txt ?
    zhaofy
        26
    zhaofy  
    OP
       2019-12-30 14:13:04 +08:00
    @Dex7er
    Disallow: /zixun/
    Disallow: /vote/
    wangxiaoaer
        27
    wangxiaoaer  
       2019-12-30 14:13:33 +08:00 via Android
    @locoz 我觉得这被抓的话不亏。
    classyk
        28
    classyk  
       2019-12-30 14:15:03 +08:00
    明显的侵权。公开数据绝不代表着所有权的变更。
    liangch
        29
    liangch  
       2019-12-30 14:19:31 +08:00
    公开是公开的事。不是说数据就没有授权。
    比如,马路上有人放了 100w。你去拿了,就是犯罪。
    locoz
        30
    locoz  
       2019-12-30 14:20:12 +08:00
    @wangxiaoaer #27 是啊,那种骗了 Cookie 瞎爬一通然后拿个人信息去卖的,被抓了真的是活该。
    yuanbo6
        31
    yuanbo6  
       2019-12-30 14:21:43 +08:00   ❤️ 1
    作为部门里面经常负责处理该性质问题的我……首先和领导表明要爬取的数据是什么性质的有什么潜在风险,其次要做好责任书性质的东西,别真出事儿了你才反应过来先是被领导当枪使然后又替领导挡子弹
    locoz
        32
    locoz  
       2019-12-30 14:25:04 +08:00
    @Myprincess #16 正解为 #14 的做法,单发邮件但“收到书面开发需求书后会立即着手开发”的行为可以被判为知法犯法,如果出事了就是作为从犯处理的。

    另外补充一下,“老板对你说有授权”这个需要保留证据,如果无法证明有这回事的话,这个做法就失效了。
    christin
        33
    christin  
       2019-12-30 14:58:30 +08:00 via iPhone
    我记得之前有个新闻 一个外包的程序员就提供了几行的爬虫数据 最后被判好多年
    caneman
        34
    caneman  
       2019-12-30 15:24:21 +08:00   ❤️ 1
    @locoz 那现在爬虫的出路在哪?只能逼迫转行?
    paradoxs
        35
    paradoxs  
       2019-12-30 15:26:28 +08:00
    爬虫高压线,现在真的别碰。 别说什么公开不公开的,没有对方授权就不行。
    locoz
        36
    locoz  
       2019-12-30 15:28:41 +08:00
    @caneman #34 看看我写的这篇文章: https://mp.weixin.qq.com/s/aXr-ZE0ZifTm2h5w8BGh_Q

    只要不搞那些有风险的操作,其实没啥关系的。
    locoz
        37
    locoz  
       2019-12-30 15:30:14 +08:00
    @caneman #34 像楼主公司这种“爬取别的公司网站的资讯然后发布到自己网站”的操作,你可以看一下文章中“别人的东西不要拿了之后放到自己家里”的部分买,属于很典型的风险操作。
    abcbuzhiming
        38
    abcbuzhiming  
       2019-12-30 15:36:12 +08:00
    @caneman 没出路,自己研究玩玩可以,别找死,国内之前几年个人隐私和大数据滥用问题如火如荼,必然会有反弹的时候,现在就是反弹的时候,以后的数据,你不拿到授权,就是公开在别人网站上的,你敢爬来用了就能被人告死。除非政策改变,否则对数据获取和利用的限制肯定是越来越严
    caneman
        39
    caneman  
       2019-12-30 15:39:36 +08:00   ❤️ 1
    @locoz 其实说到底,能让你爬的数据一般价值有限,真正有价值的数据是不可能给你授权的。(购买接口就不叫爬虫了)。现在的形势,感觉做爬虫的就是走钢丝,把选择权交给对方,不告你啥事没有,一告你百分百出事....

    有商业价值的数据,感觉有一个算一个,只要爬,没一个是具有合法性的。。。只能想各种办法来规避对方告你的风险(要么不要让对方知道你在爬,要么你爬的速率和规模在对方容忍范围内),因为告你也是需要成本的。

    还是好难做啊...
    caneman
        40
    caneman  
       2019-12-30 15:42:01 +08:00
    @abcbuzhiming 是啊,感觉就是赌,赌对面不会告你,保不齐哪次就栽了...
    locoz
        41
    locoz  
       2019-12-30 15:54:51 +08:00
    @caneman #39 只要不过分、展示出去的东西是经过加工的、能给源头带来利益,没人会想着搞你...而且即使搞你了也拿不出证据。(自己傻到用同一个 IP 一直怼的除外)
    caneman
        42
    caneman  
       2019-12-30 16:11:14 +08:00
    @locoz #41 这个当然知道了,有些数据来源非常单一,举个简单的例子,抖音 /微博的博主信息,点赞关注回复之类的,假使抖音 /微博他们完全不开放相关接口,你无论怎么加工,只要提供了相关服务必然会暴露你拥有信息这个事情,抖音虽然无法从服务器上面知道究竟是谁在爬它,但是它很容易知道谁在提供服务。只要想盈利你不可能把数据捂着放一边把,告了公司,法院和警方会寻找真正的爬虫 er,爬虫被抓的,基本也都不是从源头被追踪到的,都是从下游一直往上捋,捋到的。

    也可以做,但是大环境确实比以前难多了,说到底,低调就对了,出头就是找死,除非你的服务对被爬方有益,但是也难说被卸磨杀驴,当然这些前提都是在商用领域,
    smilenceX
        43
    smilenceX  
       2019-12-30 16:20:30 +08:00
    @wdv2ly 我记得以前听课的时候,有个说法是,知不知法是不影响定罪和量刑的。古装剧里“罪加一等”的前半句应该是“执法犯法”。
    我不是专业人士,如果我说错了,请告诉我。
    Kig
        44
    Kig  
       2019-12-30 16:28:13 +08:00
    看爬什么吧
    henices
        45
    henices  
       2019-12-30 17:06:10 +08:00
    coderluan
        46
    coderluan  
       2019-12-30 17:19:32 +08:00
    如果是非“爬”不可的情况,我会选择油猴脚本的方式,这样从技术角度我只是分析了本地的网页数据,风险就从盗窃信息变成了未授权转载了......效率低负罪感也低点......
    codeduan
        47
    codeduan  
       2019-12-30 18:40:02 +08:00
    爬虫写得好,牢饭吃到饱
    nvhanzhi
        48
    nvhanzhi  
       2019-12-30 18:50:13 +08:00
    今日头条一天到晚在爬,人家老板成了巨富
    qiuqiuwang99
        49
    qiuqiuwang99  
       2019-12-30 19:05:42 +08:00 via Android   ❤️ 1
    三个字 不要碰 尤其有个人信息的 一条也不要爬 即使是个人公开也不可以。这是高压线,个人信息保护法马上要出,正愁没祭刀的呢。
    SwagXin
        50
    SwagXin  
       2019-12-30 23:54:29 +08:00
    侵权,你就不应该发这个帖子,现在你知道了你还会爬吗。
    niboy
        51
    niboy  
       2019-12-31 11:22:18 +08:00
    别爬,如果东窗事发,程序员是要被开刀的
    lisiqi
        52
    lisiqi  
       2019-12-31 11:41:11 +08:00
    @coderluan #46 好主意。。。。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3072 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 12:50 · PVG 20:50 · LAX 04:50 · JFK 07:50
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.