V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sengxian
V2EX  ›  程序员

求指路淘宝爬虫姿势

  •  
  •   sengxian · 38 天前 · 4800 次点击
    这是一个创建于 38 天前的主题,其中的信息可能已经有所发展或是发生改变。
    现在有个需求,需要爬某品类下不同商家的大量商品详情及图片,总量约十万级别,预算比较充足,请问现在有靠谱的方法吗,是不是会面临比较大的政策风险 = =

    求指路,感激不尽
    68 条回复    2021-10-26 18:04:30 +08:00
    lsylsy2
        1
    lsylsy2   38 天前   ❤️ 21
    你的预算和法务都很难比阿里更充足
    x86
        2
    x86   38 天前   ❤️ 4
    阿里法务部希望你在年前可以做出来,这样好冲下 KPI
    Xusually
        3
    Xusually   38 天前 via iPhone   ❤️ 1
    Prison Oriented Programming
    ByZHkc3
        4
    ByZHkc3   38 天前
    这是留下犯罪证据吗
    kiracyan
        5
    kiracyan   38 天前
    吃牢饭的姿势?
    defunct9
        6
    defunct9   38 天前
    慢速 + 疯狂换代理,应该可以
    Kiriya
        7
    Kiriya   38 天前
    爬虫写的好,牢饭吃到饱狗🐶
    xiadd
        8
    xiadd   37 天前
    雇人人工保存🐶
    ixuuux
        9
    ixuuux   37 天前 via iPhone
    方法是有的,但是你要合规那没有
    mxT52CRuqR6o5
        10
    mxT52CRuqR6o5   37 天前 via Android
    @xiadd 雇人工手爬是最法律安全的,不过还是可能被反爬虫
    eason1874
        11
    eason1874   37 天前
    《面向法律编程》

    @xiadd @mxT52CRuqR6o5 人工仅仅是访问合规,还有用途合规,这才是重点。要是用来盈利的,不管怎么收集都不会是合规的
    johnsonshu
        12
    johnsonshu   37 天前
    借楼问一下,爬某个网站合不合法,是不是看 robots.txt 就行啊?
    有没有什么判断标准啊?
    Jooooooooo
        13
    Jooooooooo   37 天前
    预算充足就人工搞呗.

    十万个 10 天, 一天搞 1w, 雇 100 个人, 一人搞 100.
    eason1874
        14
    eason1874   37 天前   ❤️ 18
    @johnsonshu #12 法律很灵活,主要看你的财力和法务团队的能力。今日头条的历史就是一部爬虫与法律关系史。

    1 、今日头条发家的时候肆无忌惮地采集,根据不管 robots.txt ,一律抓取放到自己网站,被百度、腾讯、微博等很多大网站和报纸起诉,一些和解转为合作,一些赔点钱。
    2 、后来反过来,有个小公司采集今日头条的视频,几个主要人员被判刑和罚款,全国首例“爬虫”技术侵入计算机系统案。
    3 、今日头条被微博 robots.txt 拉黑,他们还反过来起诉微博不正当竞争,2017 一审胜诉,2021 二审才改判败诉。
    caicaiwoshishui
        15
    caicaiwoshishui   37 天前 via iPhone
    @eason1874 血压上来了
    lilihangzhou
        16
    lilihangzhou   37 天前
    劝退,曾经爬过一小阵子淘宝有好货的文案,那个时候做爬虫还没什么法律风险,但是淘宝的反爬很厉害,爬了几万数据就被堵上了,
    oneisall8955
        17
    oneisall8955   37 天前 via Android
    对接第三方吧?
    supuwoerc
        18
    supuwoerc   37 天前
    预算够的话直接上人工,手动保存,这样就没政策风险了🐶
    lzs5240
        19
    lzs5240   37 天前
    阿里法务部已记录在案 希望你赶紧行动
    shanghai1943
        20
    shanghai1943   37 天前   ❤️ 1
    莫非这帖子是阿里法务的钓鱼贴?
    keventseng
        21
    keventseng   37 天前
    做之前,先把“张三”请来当你的法律团队~
    feelinglucky
        22
    feelinglucky   37 天前
    这可真刑,真有判头
    SmiteChow
        23
    SmiteChow   37 天前
    爬虫写得好,牢饭吃得早。
    tenserG
        24
    tenserG   37 天前
    李四教会张三爬虫,张三爬取某大型网站非法获利被警方抓获,请问李四要承担什么责任⬅.⬅
    chevalier
        25
    chevalier   37 天前
    @tenserG 李四如果有指使张三爬某大型网站的行为,则是主犯,教唆犯
    如果没有类似行为,则不需要承担责任
    lithiumii
        26
    lithiumii   37 天前 via Android
    预算充足找第三方,直接百度搜,那几家都做广告的,对比一下。
    ospider
        27
    ospider   37 天前   ❤️ 6
    V 站里竟然也有整楼都是玩儿梗的帖子,服了。

    楼主这种情况可以说几乎没有法律风险。10 万数量不大,而且商品信息本来就是公开可访问的,不是用户隐私信息。

    从某种程度上来说,像淘宝这种垄断平台,应该有把自己信息开放的义务,否则淘宝才是不正当竞争。楼上你们这些人冷嘲热讽,真不知道是什么心态,嫌国内的技术氛围太好吗?
    thetbw
        28
    thetbw   37 天前
    像喵喵折那种,我看它数据还是蛮全的,不知道是怎么实现的。他们有个浏览器插件,难道是用户当肉鸡,去爬分析用户当前浏览的数据,返回给他们服务器?
    lazyyz
        29
    lazyyz   37 天前 via Android
    非常具有可邢性
    huyu
        30
    huyu   37 天前
    我以前写过,10 万数据不是很难,就是需要时间
    LING97
        31
    LING97   37 天前
    学 Python 的时候爬过京东,几乎没啥反爬机制。淘宝就是爬不成功,各种被检测,然后就放弃了,也不是吃这口饭的
    gengchun
        32
    gengchun   37 天前   ❤️ 1
    @ospider 你这说法有误导,这个最多只是没有刑事风险。

    民事风险当然是有的。

    > 应该有把自己信息开放的义务,否则淘宝才是不正当竞争

    这个理由确实不错,真的合规的话,你应该进行预防性诉讼,先去起诉淘宝不正当竞争,赢了以后再爬。 除非你这么说没有任何意义。

    你唯一说对的是,这个数量不大,阿里的法务应该懒得搭理,所以法律风险可以忽略不计。
    doecho
        33
    doecho   37 天前
    爬虫是不能爬虫的,现在的淘宝限制得很死,单刚怎么干得过阿里的反爬团队
    huanglongtiankon
        34
    huanglongtiankon   37 天前
    只是爬 10 万难度应该不大,多换几个代理就是了
    huanglongtiankon
        35
    huanglongtiankon   37 天前
    而且这么点数量根本没什么法律风险的,阿里法务才没这么闲去管你
    whusnoopy
        36
    whusnoopy   37 天前
    @ospider 提一些反对意见,非杠

    如果是未登录状态,不用几条就会遇上各种反爬的反制手段,不太确定技术上是否好解决
    如果是登录状态,超出正常使用频度的访问应该也会被反爬,甚至暂时冻结账号,不知道有没准备足够的账号

    信息的确应该开放互通,爬是一种办法,而且应该是迫不得已的办法,技术圈真正该做的是推动开放互通,有可以公开的获取渠道
    aozhou
        37
    aozhou   37 天前   ❤️ 1
    @ospider 终于有个说实在话的,不过国内这个环境确实太差了,太偏向大资本了。
    ColinLi
        38
    ColinLi   37 天前
    能爬,但是刑不刑就看运气了
    XD2333
        39
    XD2333   37 天前
    预算充足的话不如去走接口吧,淘宝的爬虫的话,反爬太疯狂了,还有风险。
    jabari
        40
    jabari   37 天前
    @ospider #27 赞同, 但是《非法侵入计算机信息系统罪》 了解一下
    具有下列情形之一的程序、工具,应当认定为刑法第二百八十五条第三款规定的“专门用于侵入、非法控制计算机信息系统的程序、工具”:   
    (一)具有避开或者突破计算机信息系统安全保护措施,未经授权或者超越授权获取计算机信息系统数据的功能的;   
    (二)具有避开或者突破计算机信息系统安全保护措施,未经授权或者超越授权对计算机信息系统实施控制的功能的;   
    (三)其他专门设计用于侵入、非法控制计算机信息系统、非法获取计算机信息系统数据的程序、工具。
    ncepuzs
        41
    ncepuzs   37 天前
    阿里系的反爬都比较丧心病狂
    控制频率 + 代理池或许可以
    但既然预算充足,不如外包
    jeeyong
        42
    jeeyong   37 天前   ❤️ 2
    首先...你要学习如何编译 chromedriver. 然后要去掉哪些特征. $_cdc 这种基本无所谓了现在.
    其次, 你要学会如何用 js 去伪造和去掉很多特征, 有些原生函数还要重写.
    举个例子, 当你用 https 协议(ios 必须是此协议, http 不行.)获取设备的地理位置信息时, 可以尝试观察他的变化特征.
    而你用爬虫的时候, 是否注意到这个问题. 这个例子仅限于移动设备模式, pc 端貌似不用考虑.
    然后才考虑到代理, 行为模式这类问题.
    我说的很含糊..因为这个技术弄明白了很香啊....
    网上也基本不会有关于第一, 第二条的相关知识. 都闷着自己做事呢.
    ws52001
        43
    ws52001   37 天前
    换代理也是没啥用的,现在淘宝是要有 ID 登录才能访问商详,10W 这个数量级虽然很小,但你想顺利爬出来还是很费劲的。。另外阿里的类张三人物还是挺多的,跟你耗个几年估计都没啥问题。
    daimaosix
        44
    daimaosix   37 天前
    刑,日子总算有判头了
    nu11ptr
        45
    nu11ptr   37 天前
    桌面 web 端正常使用都狂跳反爬,体验吊差
    Felldeadbird
        46
    Felldeadbird   37 天前
    用浏览器扩展写爬虫。

    但是,但是,但是。你正常人只浏览不购买。风控系统会锁定你的。

    所以你要解决的就是怎样伪装成人。
    gamexg
        47
    gamexg   37 天前
    @ospider #27 风险还是有的,
    淘宝授权里面应该不允许机器人抓取,
    然后突破淘宝反爬虫系统会涉及到入侵计算机系统罪。
    aababc
        48
    aababc   37 天前
    大家不知道还记不记得有一个叫 巧达 的公司
    jiayong2793
        49
    jiayong2793   37 天前
    写爬虫已经进去几个了,你还敢?
    find456789
        50
    find456789   37 天前
    10w 的数据不算大,我几年前爬过卖家信息,那时候 谷歌云服务可以免费领取,我开了大概 10 个机器, 爬了大概可能有 100w (具体记不清,也可能是几十万)

    你如果只要详情(文字信息)+ 图片地址, 走默认渠道可能会有难度,因为他们的反爬比较变态, 建议你找一下他们的 api 接口, 速度会快很多

    另外, 淘宝有个开放平台, open.taobao.com 申请一个 app,然后申请权限后,就可以拿到很多商品信息

    如果最后,你还搞不定, 可以把你的需求和我详细说说(考虑到你说预算充足)
    feiniu
        51
    feiniu   37 天前
    需要买 代理+ 账号

    现在淘宝没账号,寸步难行
    feiniu
        52
    feiniu   37 天前
    商品详情 现在风控很高
    feiniu
        53
    feiniu   37 天前
    @jeeyong 真大佬
    xiaoluhi
        54
    xiaoluhi   37 天前   ❤️ 1
    @ospider 胖球数据据说就是阿里举报的,前段时间被端了的,爬的也是商品、价格、销量信息等等。
    https://www.ixigua.com/7021106873096995358?wid_try=1
    txx
        55
    txx   37 天前   ❤️ 1
    商品详情有淘客的 API 啊...直接买 API 就行了...
    jeeyong
        56
    jeeyong   37 天前
    @gamexg 破坏计算机信息系统罪 及 非法入侵计算机信息系统罪.
    bybyte
        57
    bybyte   37 天前
    日子越来越有判头了
    jeeyong
        58
    jeeyong   37 天前
    我有社交牛逼症, 我再来多 BB 几句..
    首先, 我没有任何业务是爬取淘宝的. 但是从技术角度做过验证, 发现可行. 仅此而已.
    本文并未透露关于爬取淘宝的任何技术细节和技术方案, 旨在讨论人机识别技术.

    淘宝在人机识别方面会更深入的做技术甄别, 通过发现更多的技术特征, 从而直接进行访问阻断或验证.
    比如早期的时候, 他是我接触的相对较早去获取$_cdc 变量判断是否为爬虫的.
    后来发展成为通过获取更多的特征, 来判断. 这应该是属于 v8 解析 js 的时候的引擎的特性吧? 我不太懂 js, 仅限于普通的应用层面. 我贴一部分代码, 看看做爬虫的时候, 你关注了多少.

    var platform = 'iPhone'
    var webdriver = false
    var standalone = false
    var maxTouchPoints = 5
    var cookieEnabled = true
    var productSub = 20030107
    var product = "Gecko"
    var vendor = "{vendor}"
    var vendorSub = ""
    var onLine = true
    var hardwareConcurrency = undefined
    var oscpu = undefined
    var cpuClass = undefined
    var doNotTrack = undefined
    var getBattery = undefined
    var storage = undefined
    var systemLanguage = undefined
    var permissions = ["geolocation", "notifications"]
    var bluetooth = undefined
    var standalone = undefined
    var userAgent = "{userAgent}"
    var shanghai = {{"longitude": 0, "latitude": 0}}
    var zhongshan = {{"longitude": 0, "latitude": 0}}
    var hangzhou = {{"longitude": 0, "latitude": 0}}

    这些变量大部分是系统内置的变量, 在你加载页面的时候他就有了...
    但是改变他的时候不能直接赋值, 这个 JS 大佬应该更清楚, 我只是知道...
    需要通过 Object.defineProperty 方法去改变...

    小朋友太闹了...我得哄娃去了..哈哈哈
    jeeyong
        59
    jeeyong   37 天前
    @jeeyong 小朋友吃饭去了..
    除此之外, 还可以通过 crx 插件及 js 的方式去替换掉显卡的特征..
    但这些做法相对比较局限, 大规模爬取的时候还是很容易被识别出来...
    相对来说, 淘宝有个好处是, 他发现你是人机, 他会要求你验证..
    但是像百度, 他只是在后台默默的标记上本次访问无效...这个很难受的.
    还有字节, 他是直接不给你内容, 抑或是使用蜜罐类的技术防止你爬取.
    有些网站甚至发现你是爬虫后, 直接给你假的, 没有意义的内容...
    我想转行...有大佬收留吗?哈哈哈
    相比技术, 我也挺擅长销售和管理的...
    markgor
        60
    markgor   36 天前
    @jeeyong 你是在说某程吗,之前研究过携某的反爬,发现他们会通过浏览器特性来判断爬虫,
    一但判定为爬虫,会直接返回相对高的价格,甚至后来直接不管是不是爬虫,列表价直接返回浮动价,只有预定价才会返回真实价,前端就弹出恭喜你,价格降低 xxx 之类的。
    dreamage
        61
    dreamage   35 天前
    找亚一爬
    safilar
        62
    safilar   34 天前
    @jeeyong 给个联系方式,我这边缺销售
    jeeyong
        63
    jeeyong   34 天前
    @safilar vx: 646894
    tel: 18621163721

    老板你好
    hvboekml
        64
    hvboekml   34 天前
    @xiadd
    @Jooooooooo
    @supuwoerc 再进阶一点,手机自动化如何 https://hamibot.com/ ,然后众包运行,正如 @eason1874 所说,用途是重点
    aino
        65
    aino   34 天前
    页面自动化的方式爬,也太 low 了把😹
    czfy
        66
    czfy   34 天前
    别自己爬了,直接找供应商吧
    dzyou2007
        67
    dzyou2007   34 天前 via Android
    阿里的反爬严格得要死,我正常访问淘宝、闲鱼这些都必跳滑块验证,很烦
    lusi1990
        68
    lusi1990   33 天前
    反爬手段:账号,IP ,浏览器指纹(2d,3d,声音)

    你需要:养号,买代理,自己编译或者买魔改的 chrome
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2456 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 39ms · UTC 14:01 · PVG 22:01 · LAX 06:01 · JFK 09:01
    ♥ Do have faith in what you're doing.