V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
iscurry
V2EX  ›  Python

爬取 x 宝的商品信息,休息一下弹窗怎么解决?

  •  1
     
  •   iscurry · 2021-02-27 08:45:32 +08:00 · 8479 次点击
    这是一个创建于 1126 天前的主题,其中的信息可能已经有所发展或是发生改变。

    需求: 根据商品 sku 获取商品的 一些属性和评论

    目前: 使用 python 的 selenium 模拟登录,然后通过 request 请求重定向,xpath 分析数据

    问题: 每一次 request 后睡眠 1s,但是发送 20 次后就会出现休息一下的界面,即使手动划过去也不行, 有没有什么好的办法?或者其他的方法?

    49 条回复    2021-03-04 08:45:10 +08:00
    kaiki
        1
    kaiki  
       2021-02-27 08:57:50 +08:00   ❤️ 47
    网页版正常浏览都很困难,你还想爬它
    wangxinpier
        2
    wangxinpier  
       2021-02-27 09:00:24 +08:00
    随机休息时间
    xihefeng
        3
    xihefeng  
       2021-02-27 09:20:21 +08:00 via Android
    抓 app 吧,web 人工都难用
    murmur
        4
    murmur  
       2021-02-27 09:38:32 +08:00
    你这速度就是比正常人快啊,1 秒看一页是不是以为淘宝的风控是傻子
    love
        5
    love  
       2021-02-27 09:46:07 +08:00
    我看不行,我正常浏览只要超几分钟都会出现,且划不过去,那个验证就是个摆设,划了没有一点鸟用
    invalid522
        6
    invalid522  
       2021-02-27 09:56:36 +08:00 via Android   ❤️ 1
    某宝以至阿里系的反爬都是出了名的恶心,如果脸黑的话,连用 app 都会被强制休息一下
    lawler
        7
    lawler  
       2021-02-27 11:52:20 +08:00
    x 宝采集一定要做分布式,刷新间隔 60s 以上。
    Smash
        8
    Smash  
       2021-02-27 12:41:39 +08:00
    我正常刷网页都要弹,你还想爬??
    westoy
        9
    westoy  
       2021-02-27 12:51:48 +08:00
    淘客 API,一方和三方都行


    @xihefeng
    app 现在多浏览几页也要登录, 登录之后频繁访问也会触发验证, 有时候验证码锁是锁全平台的, 包括高德、阿里妈妈....... 一样绕不过的
    imgbed
        10
    imgbed  
       2021-02-27 13:08:22 +08:00 via Android
    换 ip 了吗
    OHyn
        11
    OHyn  
       2021-02-27 13:11:39 +08:00
    正常使用都困难的东西。。。
    Dvel
        12
    Dvel  
       2021-02-27 13:12:55 +08:00
    Web 上高德地图也老弹这个。。。
    wqzjk393
        13
    wqzjk393  
       2021-02-27 13:13:23 +08:00 via iPhone
    模拟点击吧
    alexbigbigworld
        14
    alexbigbigworld  
       2021-02-27 13:36:06 +08:00 via iPhone
    我自己店铺是在应用市场买的接口做的退货管理之类,你要是采集别人的话估计不好弄,彩多了直接给你 404
    systemcall
        15
    systemcall  
       2021-02-27 14:15:13 +08:00
    没救了的东西,你正常浏览,只要不下单,要不了半个小时就会卡弹窗,没办法跳过的那种
    感觉是只要看了 20 个商品左右就会开始弹,谁让你只看不买的?
    dbow
        16
    dbow  
       2021-02-27 15:41:08 +08:00
    淘宝风控非常严格,我以前买东西搜索一下都会让拖滑块,现在不上淘宝了, 基本在京东买。
    leega0
        17
    leega0  
       2021-02-27 15:43:55 +08:00
    正常搞快了都休息,你还机器人爬。。。分布式吧
    yaoye555
        18
    yaoye555  
       2021-02-27 16:00:28 +08:00
    淘宝 web 就不是给人用的玩意
    yaapoo
        19
    yaapoo  
       2021-02-27 17:26:08 +08:00
    time.sleep()
    annielong
        20
    annielong  
       2021-02-27 18:57:41 +08:00
    正常访问都弹窗
    Thymolblue
        21
    Thymolblue  
       2021-02-27 19:04:54 +08:00
    想请教一下使用 selenium chrome drive 有没有什么办法在后台输入 hotkeys 而不受桌面窗口影响
    applehater
        22
    applehater  
       2021-02-27 19:33:56 +08:00 via Android
    小新破坏计算机信息的名头
    linuxcat
        23
    linuxcat  
       2021-02-27 19:34:55 +08:00
    tb 连正常访问都拦,更别说爬虫了
    zictos
        24
    zictos  
       2021-02-27 19:38:48 +08:00
    动态 ip vps + 切换 UA + 切换浏览器指纹 + 隐身模式或者清除浏览器缓存和 cookies
    lmmortal
        25
    lmmortal  
       2021-02-27 19:46:13 +08:00 via iPhone
    @Dvel 因为这个原因 web 端我换百度了

    @love 我也多次遇见,画到头了全绿然后说出现问题让刷新重滑 滑完下边是两个绿条,还是不让进页面
    westerndream
        26
    westerndream  
       2021-02-27 20:48:38 +08:00
    正常浏览都出现休息一下怎么解决
    thursday
        27
    thursday  
       2021-02-27 20:52:45 +08:00
    @alexbigbigworld 你用的是哪个 应用了。我也有类似需求
    jousca
        28
    jousca  
       2021-02-27 21:08:06 +08:00   ❤️ 1
    正常浏览在上面找东西都会弹出验证滑块,还别说你搞爬虫。

    垃圾网站早晚要挂。
    meinjoy
        29
    meinjoy  
       2021-02-27 22:11:05 +08:00 via iPhone
    @alexbigbigworld 请问在哪能卖?
    alexbigbigworld
        30
    alexbigbigworld  
       2021-02-27 22:27:23 +08:00 via iPhone
    @meinjoy 服务市场里找集市宝
    muzuiget
        31
    muzuiget  
       2021-02-28 01:23:51 +08:00
    正常浏览都会弹,有时候货比三家确实会频繁刷新同一页,都会弹,垃圾。
    zckevin
        32
    zckevin  
       2021-02-28 09:03:27 +08:00
    iscurry
        33
    iscurry  
    OP
       2021-02-28 11:26:32 +08:00
    @zckevin 请问这个该怎么用?
    iscurry
        34
    iscurry  
    OP
       2021-02-28 11:26:54 +08:00
    @leega0 分布式的目的是什么?
    iscurry
        35
    iscurry  
    OP
       2021-02-28 11:27:21 +08:00
    @zictos selenium 怎样弄动态 ip
    zictos
        36
    zictos  
       2021-02-28 12:13:00 +08:00
    @iscurry #35 动态 vps 可以通过通过程序自动切换系统 ip 的,windows 系统可以通过 cmd 命令( python 通过 os.system()调用)。系统 ip 变了,selenium 自然也变 ip 了。可以在 python 中每隔指定时间切换一下 ip,
    cnscorpions
        37
    cnscorpions  
       2021-02-28 13:48:38 +08:00
    web 的反爬太厉害了,可以考虑下 app 的吧😂
    inwar
        38
    inwar  
       2021-02-28 14:25:36 +08:00 via Android
    人用都几次弹一次窗。。
    newmlp
        39
    newmlp  
       2021-02-28 14:58:19 +08:00
    正常人谁会准时 1S 刷一次这么准,淘宝风控又不是傻逼
    Rache1
        40
    Rache1  
       2021-02-28 16:20:46 +08:00
    我觉得淘宝最狗的就是,不登录都不能搜索。。。
    Lemeng
        41
    Lemeng  
       2021-02-28 17:28:32 +08:00
    淘宝以前被爬的太多了吧,有时候正常看都会出来,不知道怎么个算法
    不过加点时间,总不会错。相对会少点
    RiESA
        42
    RiESA  
       2021-02-28 17:28:48 +08:00
    收购阿里
    iscurry
        43
    iscurry  
    OP
       2021-02-28 17:45:11 +08:00
    @xihefeng 怎么抓,可以更加详细的说吗?我对这个并不熟悉
    iscurry
        44
    iscurry  
    OP
       2021-02-28 17:45:33 +08:00
    @xihefeng 也可以有偿学习
    iscurry
        45
    iscurry  
    OP
       2021-02-28 17:50:04 +08:00
    @imgbed 每个 ip 能用几十次
    iscurry
        46
    iscurry  
    OP
       2021-02-28 17:51:49 +08:00
    @lawler 分布式的目的是什么呢?
    z5e56
        47
    z5e56  
       2021-02-28 22:03:18 +08:00
    淘宝的员工满意地笑了并关闭了本标签页
    imgbed
        48
    imgbed  
       2021-03-01 11:52:23 +08:00
    @iscurry 那要有足够的 IP 才行
    xihefeng
        49
    xihefeng  
       2021-03-04 08:45:10 +08:00
    @iscurry 我见到的是破解 app 端特定参数,例如 https://github.com/xzh0723/Taobao,然后使用代理 ip 等方式搞的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5654 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 01:44 · PVG 09:44 · LAX 18:44 · JFK 21:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.