首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
Coding
V2EX  ›  Python

现在公司写爬虫的风险有多大?还能抓吗?

  •  1
     
  •   bighead22 · 350 天前 · 8171 次点击
    这是一个创建于 350 天前的主题,其中的信息可能已经有所发展或是发生改变。

    看了篇文章 https://www.yuanrenxue.com/crawler/web-crawler-law.html 里面讲了有公司抓今日头条数据,被今日头条告了, 以《刑法》第 285 条:非法获取计算机信息系统数据罪,被判有期徒刑,嚓 被判刑依据是“修改 UA,绕开访问频率控制”,写爬虫这不是常用手段吗????? 这下写爬虫前,岂不是先要去读一下刑法呀,呃呃

    49 回复  |  直到 2019-01-01 21:56:05 +08:00
        1
    bighead22   350 天前
    要低调????
        2
    idcspy   350 天前
    去判决文书网看看,多呢,特别是网安法施行以后。
        3
    Allen163   350 天前
    爬虫都不是太合法吧。这可怎么办呢
        4
    mapnaqi   350 天前
    应该是要看爬虫爬的数据是什么数据, 还有是否盈利
        5
    bayker   350 天前
    这里判刑的是绕过了身份验证的吧,正常爬公开的数据也违法?
        6
    wsh1108   350 天前
    背后一凉,我要辞职
        7
    wenzhoou   350 天前 via Android
    如果法律上出现非法这个词而且没有解释的话。很搞笑啊。
        8
    loveour   350 天前   ♥ 1
    不知道有没有谁知道详情,印象里判决书那段确实很扯,但是实情是抓数据的人是头条出来的,应该是利用了头条内部的什么漏洞抓的数据,不是爬公开数据。另外,如果判决真的就是那样成立的,那其实百度也可以被套进去。。
        9
    o0   350 天前
    如果触犯刑法,那就肯定 GG。
        10
    zzNucker   350 天前
    显然违法的。。。 你多关心一下网络安全法和判例吧
        11
    bighead22   350 天前
    判决文书里写得很模糊,感觉像绕开对方的访问控制策略就会遭殃。。。。。。。
        12
    bighead22   350 天前
    @zzNucker 能再阐述多一点么
        13
    crab   350 天前
    利用漏洞和正常爬能一样吗?要这样百度和谷歌都不敢爬了。
        14
    tabris17   350 天前
    @bighead22 如果绕开访问控制策略就会判刑,那么必须公开自己的访问控制策略才行啊,否则我怎么知道是不是不小心歪打正着的
        15
    zjsxwc   350 天前
    百度等搜索引擎或成为最大的被判刑者

    2333333333
        16
    flatflax   350 天前
    文章的案例里面,写爬虫的小公司因为 Linkedin 反爬虫而告 Linkedin,法院还判胜诉了。

    结论是“如果数据拥有者有证据向法院起诉的话,抓取数据的一方多半会败诉。”

    黑人问号????
        17
    bighead22   350 天前
    @flatflax 那个是讲的国外反例吧。。
        18
    bighead22   350 天前
    @tabris17 这很讲理,哈哈哈
        19
    hyshuang2006   350 天前   ♥ 2
    天眼查爬各大.政.府.部.门服务器的数据,怎么就没人管呢?还公开贩.卖企业负责人姓名、电话...
        20
    passerbytiny   350 天前   ♥ 1
    网络爬虫(英语:web crawler ),也叫网络蜘蛛( spider ),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。……网络爬虫可以将自己所访问的页面保存下来,以便搜索引擎事后生成索引供用户搜索。……不愿意被爬虫访问、被爬虫主人知晓的公开站点可以使用 robots.txt 文件之类的方法避免访问。 —— 摘自维基百科 https://zh.wikipedia.org/wiki/%E7%B6%B2%E8%B7%AF%E7%88%AC%E8%9F%B2

    楼主你那不叫作爬虫,你那是恶意抓数据,从来就没合法过。

    Linkedin 案例,那个小公司是用正常的爬虫去爬,然后自己分析(简单得说就是高级人肉搜索),Linkedin 就加了手段,只让搜索引擎爬,不让那小公司爬。Linkedin 相当于开门接客,大家都可以只看不上,但是那个只画像并且回头用画像赚钱的鳖孙,乱棍赶走;头条那个案例相当于闭门接客,不准只看不上,有人捅窗户纸偷偷看:这俩区别太大了。
        21
    xpresslink   350 天前
    这种文章的目的不是为了真理和正确,也不是为了教育读者,能吸引更多眼球就是胜利。所以看看就好。
    黑客和爬虫行为上虽然有时很接近,但是本质是非常不同的,不能听见喇喇蛄叫就不种庄稼啦。
        22
    yzkcy   350 天前
    得看你爬什么数据,反正我见过的搞爬虫的,爬敏感数据的不是没有(更有甚者利用某些漏洞,比如越权、未授权的接口等)。

    其实这行业这么乱,也该整顿整顿了。
        23
    chroming   350 天前
    搞爬虫的很多,主要看你爬什么以及对方是不是在意了
        24
    zzpx   350 天前 via Android
    百度地图爬大众点评数据,被判赔了几百万
        25
    tabris17   350 天前
    @zzpx 李彦宏不用坐牢吗
        26
    commadou   350 天前
    我觉得应该是一个是看原网站的数据保留等级吧,另一个是看数据爬了怎么用,如果是免登陆就默认随便爬,如果你爬的时候又是模拟用户登陆又是绕过验证码又是避免浏览频率限制就有些问题了,如果是爬竞争公司的数据放到自己的平台上并作为盈利,这被告妥妥的。
        27
    mytsing520   350 天前
    突破 APPKEY 或 SecretKEY 的验证,及它的访问频率限制(如果有)等做法均可以被视为非法
        28
    bighead22   350 天前
    @tabris17 大公司能赔钱免灾吧
        30
    neptuno   350 天前
    小公司不会被告,大公司不怕被告
        31
    bighead22   350 天前
    @neptuno 是这个理
        32
    mmdsun   350 天前 via Android
    还有非法入侵他人计算机罪。所有爬虫公司要开高点。。
        33
    mumbler   350 天前
    爬本身不存在违法与否,关键看用途,你爬了今日头条数据做语料分析,谁会来告你啊,但你做个今日头条竞品,人家就算买通法官也要搞死你,有没有法律都不重要,参考珊瑚虫 QQ 案
        34
    wispx   350 天前   ♥ 1
    完了,我抓了 bing 的每日的图,bing 会不会告我啊。。。(doge),https://wallpaper.wispx.cn
        35
    neo3991   350 天前
    今天同事还跟我讨论呢,如果你自己搭网站,爬虫新闻放到自己网站上,里面再放上谷歌、FB 的广告,然后自己就能运营起来赚钱了。。。。
        36
    bighead22   350 天前
    @neo3991 这绝壁要遭
        37
    richangfan   350 天前 via Android
    合情合法就不会有反爬虫了
        38
    binghe   350 天前 via Android
    假如目标网站是非盈利,公益性,便民性的,然后我爬过来的数据也是用于便民,非盈利的话,应该没事吧。
        39
    akira   349 天前
    @neo3991 爬一堆新闻放自己的网站,做好了就是头条了呗
        40
    luckbbs   349 天前
    获取未授权的数据就是违法,今日头条的新闻是它的核心 IP 了。
        41
    king1101   349 天前
    我朋友在国企做爬虫,不知道有没有企业敢告国企
        42
    BigNoooob   349 天前
    模拟加密参数直接从接口访问算吗?
        43
    bighead22   349 天前
    @luckbbs 今日头条之前的新闻还全是未授权抓取的
        44
    c4f36e5766583218   349 天前
    python 写爬虫好用么,我没感觉,架构方法不行吧?
        45
    zsdroid   349 天前
    @luckbbs 未授权?我的手机号我没有授权还不是分分钟一个推销短信。
        46
    wc110302   348 天前
    我感觉有点危言耸听了吧,比如有人在 githunb 上传的一些开源代码被人非法利用,那如果这个人违法被抓了,是否还会追溯到这个开源代码的人身上去呢
        47
    ioven   348 天前
    大把的百度云爬虫站,应该都是非法抓取吧
        48
    dongdong95   347 天前
    利用“爬虫”抓视频 法院审结首例非法盗抓数据案

    https://www.cnbeta.com/articles/tech/803327.htm
        49
    lihnzx   344 天前
    重点是不要把服务器爬到负载, 不然人家肯定会治你;
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1497 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 28ms · UTC 17:10 · PVG 01:10 · LAX 09:10 · JFK 12:10
    ♥ Do have faith in what you're doing.