V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
SoulClinic
V2EX  ›  程序员

[阿里爬虫] 如何应对反爬?

  •  
  •   SoulClinic · 2022-02-23 13:57:41 +08:00 · 12166 次点击
    这是一个创建于 1008 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近在做房产拍卖的爬虫,京东的很好爬,很容易就爬到需要的几千条记录(包括图片,附件,自动生成海报),自动生成数据库需要的数据 (node.js + puppeteer),在小程序显示:

    但要爬淘宝的就难多了,时不时要求登陆或者验证(如果请求频繁),也会让你休息,看网上也有很多普通用户抱怨这个 关键是滑滚过去还会失败:

    https://sf.taobao.com/item_list.htm

    正在摸索,阿里主要是根据 cookie 来判别请求是否过于频繁,网上也说了每个请求最好相隔几秒

    更可恶的是,在阿里自己的阿里云服务器根本就请求不到(无论是什么 cookie ),我要本地定时爬然后发到远程服务器~~ 😡

    请问该如何道高一尺魔高一丈?🎃

    第 1 条附言  ·  2022-02-25 12:34:47 +08:00
    🚦友情提醒:
    这主要是爬虫技术爱好分享交流,同学们要遵守爬虫协议,爬到的网站的信息不能用于商业,否则会收到律师请你喝茶哟~
    158 条回复    2022-03-01 15:27:19 +08:00
    1  2  
    murmur
        1
    murmur  
       2022-02-23 13:59:12 +08:00   ❤️ 31
    这里有京东的人么,你们的法务部该行动了
    9c04C5dO01Sw5DNL
        2
    9c04C5dO01Sw5DNL  
       2022-02-23 14:00:07 +08:00   ❤️ 18
    楼主可真刑啊
    cweijan
        3
    cweijan  
       2022-02-23 14:00:58 +08:00   ❤️ 1
    对, 不能太频繁, 而且请求后要用新 cookie 替换掉当前 cookie
    registerrr
        4
    registerrr  
       2022-02-23 14:01:33 +08:00
    很可铐,我看刑
    einq7
        5
    einq7  
       2022-02-23 14:03:36 +08:00   ❤️ 8
    我铐,家人们,太刑了,日子越来越有判头了
    westoy
        6
    westoy  
       2022-02-23 14:05:01 +08:00   ❤️ 3
    V 站京东的程序员呢? 楼主这样挑衅你们能忍么? 快点去肝反爬
    deplivesb
        7
    deplivesb  
       2022-02-23 14:09:24 +08:00
    楼主离国家饭越来越近了
    SoulClinic
        8
    SoulClinic  
    OP
       2022-02-23 14:14:09 +08:00
    你们太纯真善良了,这些数据“好像”是公开的啊,已经有类似的 app 了,例如这个: https://www.yfbudong.com/
    @cweijan 替换 cookie 我试了确实可行,但是只能人工,请教自动替换怎么整( puppeteer 有点点被阿里打压了一样)
    YUyu101
        9
    YUyu101  
       2022-02-23 14:14:20 +08:00
    对不知道有没有用无头浏览器爬的
    statement
        10
    statement  
       2022-02-23 14:17:36 +08:00
    看是否追究了 公开的数据爬应该可以 但可以给你安一个 破坏计算机系统罪 而且你爬公开信息 也只能自用 不能对外提供服务吧
    QK8wAUi0yXBY1pT7
        11
    QK8wAUi0yXBY1pT7  
       2022-02-23 14:19:36 +08:00   ❤️ 1
    我就正常用 Chrome 打开淘宝都时不时出现那个验证。
    掏包网太瓷了。
    wunonglin
        12
    wunonglin  
       2022-02-23 14:19:36 +08:00
    @SoulClinic #8 你知道什么是口袋罪么?
    googlefans
        13
    googlefans  
       2022-02-23 14:19:49 +08:00
    @einq7 hahaha
    SoulClinic
        14
    SoulClinic  
    OP
       2022-02-23 14:21:36 +08:00
    咱暂时的底牌就是:如果阿里的爬不到,就爬这个海豚网
    大部分需要的阿里的数据好像在这个海豚里都有 🤖
    TtTtTtT
        15
    TtTtTtT  
       2022-02-23 14:22:11 +08:00
    @SoulClinic 马路也是公开的,也不能说躺就躺啊 =。= 公开和数据的归属权本来就是两回事。
    ChicC
        16
    ChicC  
       2022-02-23 14:22:26 +08:00
    反爬做到牺牲用户体验了
    ospider
        17
    ospider  
       2022-02-23 14:22:54 +08:00   ❤️ 2
    一谈爬虫就开始玩儿梗,要真去逆向板块反倒一群大佬能谈点技术。某些 V 友真是魔怔了,恨不得马上替阿里用口袋罪给抓住。就这个来说,去搜下各种指纹吧,TCP 指纹、TLS 指纹、浏览器指纹,会有些思路的。
    SoulClinic
        18
    SoulClinic  
    OP
       2022-02-23 14:28:28 +08:00
    @wunonglin 不知道,听起来 Google 好像是罪大恶极了?
    用户跟我说的主要目的就是节省用户(主要是律师)的时间 /效率,现在他们要一时搜京东,一时搜阿里,白花了很多时间精力
    这就是货真价实,名正言顺的“为人民服务”啊!!
    Jooooooooo
        19
    Jooooooooo  
       2022-02-23 14:34:14 +08:00
    @SoulClinic 公开数据当然不能随便爬. 搜 爬虫 坐牢 有惊喜.
    winnerczwx
        20
    winnerczwx  
       2022-02-23 14:35:47 +08:00
    @SoulClinic #8 绕过反爬已经属于违法行为了, 即使是公开信息... 只要对面公司起诉必被抓
    statement
        21
    statement  
       2022-02-23 14:40:11 +08:00   ❤️ 1
    @ospider 也不是单纯的玩梗 只是提示风险 毕竟已经有很多案例了 如果真想送你进去 一定可以送你进去。确实是违法的 只是影响力不大 没造成破坏和竞争 追究没有收益罢了 。 和建梯子出售差不多 道德上没啥问题但违法 你在这里说 肯定回你我看刑 你到相应社区就会和你交流技术
    gongquanlin
        22
    gongquanlin  
       2022-02-23 14:40:11 +08:00   ❤️ 1
    淘宝连正常用户都 ban , 我正常访问都动不动出来个验证码反爬
    wanguorui123
        23
    wanguorui123  
       2022-02-23 14:44:56 +08:00
    准备免费就餐吗?
    murmur
        24
    murmur  
       2022-02-23 14:48:59 +08:00
    @ospider 希望你以后做内容提供的时候能这么淡定哦
    SoulClinic
        25
    SoulClinic  
    OP
       2022-02-23 14:49:33 +08:00
    这个违法问题咱是提前问了客户的啊,他说没问题,这是合法的😹
    咱主要是冲着玩技术去,有点挑战更好玩
    传说中爬虫都要用 Python 似的,咱可是要替 node/JavaScript 取回公道啊
    SoulClinic
        26
    SoulClinic  
    OP
       2022-02-23 14:53:55 +08:00
    难道你们不想做黑客吗?不想的快去买一本《黑客与画家》
    deplivesb
        27
    deplivesb  
       2022-02-23 14:54:59 +08:00   ❤️ 1
    @SoulClinic #8 公开的数据不代表比可以通过非正常技术手段获取。给你找一些案例,https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China
    这里面哪一个的数据不是公开的。说不好听的,如果你爬的是 gov 网站,请求量过大,把人家系统搞崩了。那反手就是一个 非法侵入计算机信息系统罪,给你说一个真事。我的一个同学现在在某银行的清算机构,今年年前因为要对接数字人民币,他的同事和数字人民的人测试联调,在测试环境,因为发送了较多的不合规的数据(测试嘛,再尝试各种条件下的错误之类的),被人家直接报警了。理由就是 “尝试” 进行破解,最后我这个同学的同事被派出所拉过去各调查问话,最后还被开除了。
    所以说,远离爬虫,自己玩玩就行了,数据握在自己手里。别公开声张。你这个还用跑来的数据做小程序。然后后期再进行了盈利,那你真是离牢饭不远了
    westoy
        28
    westoy  
       2022-02-23 14:58:40 +08:00
    @SoulClinic

    客户买的是方案

    具体做实现方案的是你啊

    客户当然不怕了, 数据本身又不违法, 有法律风险的是绕过平台风控的解决方案本身和提供解决方案方啊.......
    westoy
        29
    westoy  
       2022-02-23 15:00:19 +08:00
    @SoulClinic

    类似案例就是做虚拟打卡或者外挂方案和卖这些方案的进去了, 买虚拟打卡和游戏外挂的都没事, 买方表示我怕个锤子啊......
    lithiumii
        30
    lithiumii  
       2022-02-23 15:00:35 +08:00
    确实没见过能绕过阿里的滑块的爬法,正常使用都会跳,何况爬虫。淘宝天猫还好,印象中考拉和高德之类的阿里系,同款滑块但要求更严,真人正常使用都会滑不过
    herozzm
        31
    herozzm  
       2022-02-23 15:02:50 +08:00 via Android   ❤️ 4
    有很多人先行把自己先锁上了,字节跳动不就是靠这个发家的嘛
    ElegantOfKing
        32
    ElegantOfKing  
       2022-02-23 15:07:08 +08:00   ❤️ 2
    真的违法。客户说不违法,那是客户不知道的。
    我关注的一个博主,爬虫能力特别强,做了所谓的淘宝每日商品排名,主要是免费提供给大家看看热度。直接被淘宝的律师警告+杭州法院出庭。从此之后他没再碰淘宝的任何业务。
    他免费的都栽了,更何况你这都是盈利了。
    westoy
        33
    westoy  
       2022-02-23 15:11:17 +08:00
    @herozzm

    时政新闻的互联网管制这块一向很厉害的, 搞垃圾站的都不敢碰的, 你去做流量一大被盯上, 当地的文化、新闻各种管局绝对会来抄你服务器的。

    而且当时备案严打最厉害的时候, 各种 IDC 清退个人用户, 企业网站甚至连留言簿都要下, 不然可能机房都会被封。 而头条还敢做评论。

    你想想当时头条的业务, 字节能做, 你能做么, 你敢做么?
    icy37785
        34
    icy37785  
       2022-02-23 15:16:38 +08:00 via iPhone   ❤️ 4
    @ospider #16 可不是玩梗。这事儿真就看追不追不追究,追究的话这些大公司的法务一告一个准,我可见太多爬公开信息戴银手镯的了。
    mrhhsg
        35
    mrhhsg  
       2022-02-23 15:16:58 +08:00
    我看刑,有判头,很可铐!
    楼主加油,争取早日吃上官家饭
    musi
        36
    musi  
       2022-02-23 15:17:41 +08:00
    @SoulClinic #25 你要不猜一下阿里为什么花大力气做反爬?单纯做着玩?还有爬虫和用什么语言无关,就别纠结 Python 还是 nodejs 了。违不违法你竟然去问客户而不是问律师,你这方便了客户客户当然高兴,那肯定让你做喽。还管你违不违法
    azuis
        37
    azuis  
       2022-02-23 15:26:43 +08:00
    淘宝页面反爬很难的。要么你养足够多的账号,要么就是去逆向 App
    ospider
        38
    ospider  
       2022-02-23 15:27:07 +08:00
    回楼上的诸位:梯子被抓的多还是爬虫被抓的多?在法律边缘试探的事情多了去了,我就是好奇为啥唯独爬虫讨论下边这种『警示』和自我阉割的言论特别多。爬人家的商业数据当然违法了,我不想洗白这一点,纯好奇。
    westoy
        39
    westoy  
       2022-02-23 15:30:27 +08:00
    @azuis

    app 也有反爬的, 它那个反爬是全系全端全局的(甚至涵盖了千牛)

    它那个反爬有个动态权重的,app 端稍微加权低一点, 但是命中+解锁频率一频, 权重就会上去, 究极形态是一段时间内无限命中验证码
    murmur
        40
    murmur  
       2022-02-23 15:41:53 +08:00
    @ospider 做的事不要脸就不要大声说出来,这是砸其他用户的饭碗,别人辛辛苦苦收集内容是给你爬来偷的么
    opengps
        41
    opengps  
       2022-02-23 15:46:20 +08:00 via Android
    淘宝的用户不会是 idc 来源,所以封掉机房 ip 段非常正常
    淘宝的反爬跟亚马逊一个道理,从零起家的电商都深受其害,自然处理到位。
    至于京东为什么好爬,可能是不在乎流量成本吧
    yhxx
        42
    yhxx  
       2022-02-23 15:55:16 +08:00
    @ospider
    两种都违法的前提下
    我觉得可能是因为爬别人的数据用于盈利极不道德
    而大部分工程师用梯子都是用在正途上的,比如加速一些开源镜像、比如用 google 解决问题,而不是去做一些不道德的事
    dcsuibian
        43
    dcsuibian  
       2022-02-23 16:05:09 +08:00
    玩爬虫可以,先了解一下判几年
    96412hj
        44
    96412hj  
       2022-02-23 16:49:39 +08:00
    很刑,我看刑
    mrhhsg
        45
    mrhhsg  
       2022-02-23 16:50:36 +08:00   ❤️ 1
    @ospider 墙这个东西大家心里对它都有自己的判断
    和爬虫不一样
    aino
        46
    aino  
       2022-02-23 16:59:45 +08:00
    逆向只能在小圈子交流,这里不适合提问。
    sgq1128
        47
    sgq1128  
       2022-02-23 17:01:01 +08:00   ❤️ 2
    @opengps 这个是因为淘宝是卖流量给商家的,所以非常在意流量;而京东是自营为主,不在乎流量来自哪里
    Te11UA
        48
    Te11UA  
       2022-02-23 17:16:37 +08:00
    @ElegantOfKing #32 想问问是哪个博主呢?
    westoy
        49
    westoy  
       2022-02-23 17:17:16 +08:00
    @sgq1128

    这个倒真不是, 京东一样防爬虫的, 最早十几年前价格什么的都是用图片生成的, 刘强东当年还公开把做返利导流的比作是劫道的, 只是后来心态变了吧..........现在频繁访问也会强制登录的, 不同帐号阈值可能不一样, 只是楼主爬的那块应该没覆盖......
    IBN5100
        50
    IBN5100  
       2022-02-23 17:18:18 +08:00
    总有错觉公开信息随便爬
    SoulClinic
        51
    SoulClinic  
    OP
       2022-02-23 18:20:44 +08:00
    总结:三思而后行...
    怀念 牛顿 /达芬奇 /图灵 他们,给我们分享那么宝贵的知识一分钱都没要
    SoulClinic
        52
    SoulClinic  
    OP
       2022-02-23 19:00:59 +08:00
    刚也提到了,这个 海豚选房,yfbudong.com 里有大部分阿里那边的房产数据,难道他们有合作?
    是不是不同种类的数据不一样,“房产拍卖”是公开的,是个特殊情况?
    就好像有些考试是特殊情况“开卷”的。。。
    playniuniu
        53
    playniuniu  
       2022-02-23 19:04:20 +08:00
    @SoulClinic 别听客户的,这个事情很多时候连律师说了都不算,不是公开信息就可以随便爬的,尤其人家有反爬措施,妥妥的破坏计算机系统。爬虫这种现在是判罚重灾区,偷偷做可以,公开出来,风险还是相当高的。
    Senorsen
        54
    Senorsen  
       2022-02-23 19:14:52 +08:00
    @ospider 都是好心提醒,等 lz 进去了就晚了。
    用梯子被抓,行政处罚;写爬虫被抓,几个月甚至几年铁窗泪。不能简单的用被抓次数纬度评价,而是要综合看后果等进行风险评估。
    Senorsen
        55
    Senorsen  
       2022-02-23 19:17:09 +08:00
    另外,参考 :
    https://www.zhihu.com/question/291554395
    (随便 Google 来的)
    一般认为,对于“明显反爬”的网站,则不能爬,否则必定踩红线。所以像淘宝这种,肯定爬不得了。
    miyunda
        56
    miyunda  
       2022-02-23 19:25:39 +08:00
    楼主啊,你去海淀法院网站搜索下,有惊喜,狱友爬的很多都是公开的信息
    ragnaroks
        57
    ragnaroks  
       2022-02-23 19:29:16 +08:00
    说实话不知道爬淘宝能判多久,但是传奇发布站可以坐 5 年
    wyx119911
        58
    wyx119911  
       2022-02-23 19:35:10 +08:00
    robots.txt 了解一下? robots 声明是具有法律效力的,有很多案例。
    9c04C5dO01Sw5DNL
        59
    9c04C5dO01Sw5DNL  
       2022-02-23 19:37:47 +08:00   ❤️ 5
    大家别劝了,劝就是当人发财路。楼主意思是其他人没被告,他也不会被告。上次见胆大还自负的,已经出来了还写了心得体会。
    westoy
        60
    westoy  
       2022-02-23 19:45:40 +08:00
    @SoulClinic

    你举例的这家背后是家新三板公司, 整个公司股东构成里有非常多创投圈的人, 这种行业背景路子野的很

    https://apps.apple.com/us/app/%E8%8D%B7%E9%B2%81%E6%96%AF%E5%8F%B8%E6%B3%95%E6%8B%8D%E5%8D%96%E6%95%B0%E6%8D%AE/id1555004602

    他家产品之一, 明目张胆告诉你数据来源自哪些平台, 你觉得是爬来的概率有多少?
    SoulClinic
        61
    SoulClinic  
    OP
       2022-02-23 20:13:33 +08:00
    @giiiiiithub 咱的意思是别人都光明正大这样干,人类是很擅长模仿的呀,不是恶意的啊
    咱也是有些意外,本想请教技术难题,结果是让咱瑟瑟发抖的善意法律提醒警告,真是悬崖勒马啊
    IvanLi127
        62
    IvanLi127  
       2022-02-23 20:34:42 +08:00 via Android   ❤️ 1
    那个啥,反爬不是害你,而是救你🤣
    cnrting
        63
    cnrting  
       2022-02-23 20:36:34 +08:00 via iPhone
    楼主我支持你😬
    ClericPy
        64
    ClericPy  
       2022-02-23 20:48:44 +08:00   ❤️ 1
    看了上面的帖子们... 一言难尽

    大家伙故意把你帖子从敏感区往休闲带, 带不动啊

    PS: 万万没想到 <黑客与画家> 会这样被 Q 到...
    icy37785
        65
    icy37785  
       2022-02-23 20:48:48 +08:00 via iPhone
    @ospider #36 回答你第一个问题,梯子被抓的多还是爬虫被抓的多,答案是做爬虫比卖梯子的和用梯子的被抓的多。回答第二个问题为什么唯独爬虫有这种警示,这个有两个原因,一个是梯子都知道违法,爬虫很多人不认为违法,第二个是,爬虫比卖梯子判得还要重,但是对做爬虫的重视比卖梯子要差太远了。
    SoulClinic
        66
    SoulClinic  
    OP
       2022-02-23 20:58:39 +08:00
    @ClericPy 你是不是说反了?是把我的“技术交流”的休闲贴带到了“法律坐牢”的敏感贴啊。。。
    justs0o
        67
    justs0o  
       2022-02-23 21:07:42 +08:00
    @SoulClinic
    1 、阿里有一个威胁情报库,里面几乎囊括了市面上的代理 IP
    2 、阿里网页内嵌了 SDK ,会收集数据
    3 、AI 会根据 2 的数据和算法,对你进行打分判断,恶意用户就会弹验证码
    zhw2590582
        68
    zhw2590582  
       2022-02-23 21:10:49 +08:00   ❤️ 1
    楼主认为:别人很多都是这样爬的,也没有被抓进去,为什么偏偏说我
    ClericPy
        69
    ClericPy  
       2022-02-23 21:12:01 +08:00
    @SoulClinic 他们也是想让你及时刹车吧, 有些灰色的东西不宜在公开场合讨论, 顶多一些小圈子群里交流讨论

    除了法务问题, 也可能会影响灰产饭碗吧. 参考当年搜狗那个直接把公众号临时链接转永久链接的漏洞, 有个好心人直接开源丢到 Github 了, 估计被相关人员看到, "仅用了不到半年"就把漏洞补上了, 然后不少灰产成本直接起飞了

    简单的说, 反爬本身就是人家表态的合理合法的行为, 无视君子协议本身就不太好, 公开讨论不管什么结果(给对方带来损失, 或者对方及时止损), 总有一方不开心的

    现在找工作都尽量避开逆向和灰色的了, 又不是无路可走没必要冒一些没必要的风险

    言尽于此且行且珍惜吧
    gamexg
        70
    gamexg  
       2022-02-23 21:15:10 +08:00
    @SoulClinic #25

    真的违法,
    你不突破反爬虫限制,判起来还有争议。
    但是突破反爬虫限制,直接就能按照入侵破坏计算机系统判了。
    你破坏的就是反爬系统。
    9c04C5dO01Sw5DNL
        71
    9c04C5dO01Sw5DNL  
       2022-02-23 21:19:46 +08:00
    @SoulClinic 你跟我这么解释没用,看看那些已经被判的是不是在公堂上也这么解释的,是不是也有用。
    vone
        72
    vone  
       2022-02-23 21:23:43 +08:00
    淘宝的反爬有个办法:用 hosts 文件把淘宝的域名强制指向到其他省份服务器上去。

    这个原理是 ip 本来是就近分配的,你强制指定后,你访问的目标服务器整个可能就你一个是你所在省份的,你的这点数据量会被其他流量淹没,不会识别到你。
    SoulClinic
        73
    SoulClinic  
    OP
       2022-02-23 21:23:54 +08:00
    @zhw2590582 这是咱的处女爬啊( 4 年前买了本《用 Python 写网络爬虫》还没看),之前也没去关注了解,这是本能反应哈

    @ClericPy 是的,现在咱会三思而后行,总不能玩出事来啊😹。不过疑惑大家都没有谈到“房地产”领域,爬虫领域是可以一概而论的吗?估计程序员(包括咱)大都对房地产没兴趣~
    SoulClinic
        74
    SoulClinic  
    OP
       2022-02-23 21:51:18 +08:00   ❤️ 1
    《爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?》: https://v2ex.com/t/666057
    SoulClinic
        75
    SoulClinic  
    OP
       2022-02-23 21:58:40 +08:00
    网上搜了一下,没有这里大家说的那么恐怖,不过大都是 2019/2020 年的,是不是这几年对爬虫的法律管控越来越严格了呢?
    https://www.zhihu.com/question/291554395
    nziu
        76
    nziu  
       2022-02-23 23:01:20 +08:00
    billly
        77
    billly  
       2022-02-23 23:56:54 +08:00
    加油,放手去做吧,反正大家劝了这么多,你还是这种态度
    2MO
        78
    2MO  
       2022-02-24 01:32:16 +08:00   ❤️ 2
    别管那么多,自己爬爬能怎么刑。要说刑的,你们这群翻墙的才是真的刑,不知道能进去几次了
    NXzCH8fP20468ML5
        79
    NXzCH8fP20468ML5  
       2022-02-24 02:07:14 +08:00 via Android   ❤️ 2
    @2MO 主要问题是,翻墙本身并不涉及明显利害关系,所以暂时来说还比较安全。
    爬虫不一样,有明确的侵权方和被侵权方。被爬方有足够的利益和动机将爬虫作者送进监狱。
    如果哪一天,查处翻墙服务被委托给某个公司,这构造了明显利害关系,那翻墙真的的是岌岌可危。
    docx
        80
    docx  
       2022-02-24 03:04:29 +08:00 via Android
    OP 本来是想讨论技术问题的,万万没想到众网友的思想觉悟都很高。

    建议:还是找个专门的论坛吧。
    icy37785
        81
    icy37785  
       2022-02-24 08:51:48 +08:00 via iPhone   ❤️ 1
    @2MO #75 不懂法可以闭嘴,别张嘴就来,用梯子翻墙一般都是行政处罚,就是签保证书和罚款完事,罚款也低,爬虫是刑事案件,真判下来基本上就是半年起跳了。
    最怕的就是你们这些人,所以总有人被抓的时候都不知道自己怎么就被抓了。
    shaojz2005
        82
    shaojz2005  
       2022-02-24 08:57:53 +08:00
    讨论技术问题的,上面很多人说了,淘宝的反爬很难绕过去,要绕过去可能需要花费成本来形成更多的”自然用户行为“。

    其他公司的网站有这些信息,你也不知道具体是怎么来的,有可能真的是合作,也有可能爬了,但是对方有法务团队能应对这样的风险。

    听你的意思,你是外包帮客户开发小程序来爬资源,找外包的客户会具备强大的法务团队吗?即使有,万一真的被告了,客户会帮你打官司吗?当然一般情况下被告入刑的可能性也没那么大。但你在公开论坛讨论这个东西,留下的痕迹就太多了,真被人注意上也不奇怪的。
    magicyao
        83
    magicyao  
       2022-02-24 09:02:14 +08:00
    @deplivesb 真的假的,和对面一起测试在测试环境发送不合规数据还会被报警,对面的测试部门是吃翔的吗
    winglight2016
        84
    winglight2016  
       2022-02-24 09:03:28 +08:00
    做爬虫百分百违法,特别是,作为公司行为时。所以,不管这种岗位给多少,我是绝不考虑的,因为以前已经有过判例,程序员作为实现者,也会被判刑——在此之前,的确是可以作为“菜刀”免责。

    淘宝这个滑块,我只要访问天猫店就必定出现,提示使用了 VPN——跟本地是否开了 VPN 无关,我猜测办公室网络出口有 VPN 之类的设备。
    wowbaby
        85
    wowbaby  
       2022-02-24 09:21:53 +08:00
    淘宝,天猫我正常访问都难,
    RickyC
        86
    RickyC  
       2022-02-24 09:30:00 +08:00
    天热,开空调呀。
    怕怕虫,加验证码呀。
    RickyC
        87
    RickyC  
       2022-02-24 09:31:16 +08:00
    @gongquanlin 您说的是 web 端?
    淘宝怎么判断是不是正常访问呢?即便登录了也可能是爬虫吧。
    还没怎么见过 app 端加验证码的。
    zjddp
        88
    zjddp  
       2022-02-24 09:31:29 +08:00
    挡人财路如杀人父母,楼上一众老哥请适可而止
    RickyC
        89
    RickyC  
       2022-02-24 09:37:34 +08:00
    看错了。以为你是反爬虫,没想到你是黑客。
    你这个,我想到 3 个解决方案:
    方案一:雇人人工爬;如果你是盖茨,花个几千亿美元,雇个几亿人,应该能解决;
    方案二:收购京东或阿里巴巴,让他们把数据交给你;
    方案三:研究高级 AI 技术,模拟人类动作,破解验证码;

    一般来讲,五百年内这个问题是有可能解决的。
    RickyC
        90
    RickyC  
       2022-02-24 09:39:23 +08:00
    @zjddp 要你这么说,世界岂不和平了?没有战争了?
    zjddp
        91
    zjddp  
       2022-02-24 09:41:28 +08:00
    @RickyC 劝了快 90 楼了你看 op 有收手的意思吗?还是说我理解错大家的初衷,只是为了给 op 以外看到帖子的人做普法教育?
    JieGaLee
        92
    JieGaLee  
       2022-02-24 09:47:40 +08:00
    在这问一问各位,之前的工作中有写爬虫,并且现在爬虫还在公司部署着(但是具体的部署、定时、存储之类的的不是我管,我只负责写 spider 文件),这种情况下我要怎么规避法律风险。
    RickyC
        93
    RickyC  
       2022-02-24 09:52:01 +08:00
    @JieGaLee 没办法吧
    wensonsmith
        94
    wensonsmith  
       2022-02-24 09:52:35 +08:00
    爬虫写得好,牢饭吃到饱
    qsnow6
        95
    qsnow6  
       2022-02-24 09:54:07 +08:00
    没事,去爬嘛
    itechnology
        96
    itechnology  
       2022-02-24 09:58:13 +08:00
    大家还是别劝了,反正这么多人都劝他,楼主还是认为可以爬,自己不会那么倒霉被抓
    ElegantOfKing
        97
    ElegantOfKing  
       2022-02-24 10:01:26 +08:00
    @Te11UA 必须亚一爬啊
    xqk111
        98
    xqk111  
       2022-02-24 10:06:58 +08:00
    瑟瑟发抖
    deplivesb
        99
    deplivesb  
       2022-02-24 10:18:07 +08:00
    @magicyao 信不信由你,反正这是我身边发生的我知道的时间最近的,就在今年过年前,我也是过年和同学一块聚知道的
    cyrbuzz
        100
    cyrbuzz  
       2022-02-24 10:20:19 +08:00   ❤️ 1
    君子不立于危墙之下。
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1037 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 106ms · UTC 20:06 · PVG 04:06 · LAX 12:06 · JFK 15:06
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.