V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ccbikai
V2EX  ›  程序员

大家都是怎么处理爬虫代理问题的?

  •  
  •   ccbikai ·
    ccbikai · 2014-05-24 15:33:09 +08:00 via Android · 22247 次点击
    这是一个创建于 3829 天前的主题,其中的信息可能已经有所发展或是发生改变。
    写好了爬虫,准备爬一些数据,但是IP只有一个,肯定会被封。

    大家平时都是怎么处理代理问题的?

    目前准备抓免费代理,30分钟检测一次有效性

    然后随机选代理


    大家有没有什么好办法?
    19 条回复    2018-11-02 21:18:42 +08:00
    sohoer
        1
    sohoer  
       2014-05-24 18:27:21 +08:00
    http://121.199.38.28/
    目前使用这个,也不是很稳定,准备用ADSL拔号换IP
    也想知道是否有更好的方式
    hydrazt
        2
    hydrazt  
       2014-05-24 18:45:28 +08:00
    直接使用tor吧,每1min换一次ip
    ccbikai
        3
    ccbikai  
    OP
       2014-05-24 19:33:31 +08:00
    @sohoer 我是在自己VPS,没有办法ADSL。
    @hydrazt 我了解一下Tor
    Livid
        4
    Livid  
    MOD
       2014-05-24 19:36:09 +08:00
    为什么互联网上会有这么多开放的代理服务器呢?
    mengli
        5
    mengli  
       2014-05-24 19:42:53 +08:00
    淘宝。很便宜。
    vbs
        6
    vbs  
       2014-05-24 19:56:11 +08:00
    @sohoer 有多么不稳定?不行的话我来做个给大伙用
    maemual
        7
    maemual  
       2014-05-24 20:09:18 +08:00
    binux
        8
    binux  
       2014-05-24 20:24:46 +08:00   ❤️ 1
    之前直接用 squid,它会屏蔽失效的代理,使用速度更快的代理,自动轮训,自动重试转发,还能设置规则。爬虫只要设置同一个出口就自动使用代理了。

    建议使用这样的转发方式,更容易控制,可重用性高,也不需要检测死活,在进行代理请求的时候同时就进行了。
    mengskysama
        9
    mengskysama  
       2014-05-24 20:36:12 +08:00
    我记得有个分支版本的GAE是自动换账号的,是不是可以利用
    hadoop
        10
    hadoop  
       2014-05-24 21:05:04 +08:00
    @binux squid里咋设置?
    binux
        11
    binux  
       2014-05-24 21:51:03 +08:00
    @hadoop """cache_peer %s parent %s 0 no-query weighted-round-robin weight=%s connect-fail-limit=2 allow-miss max-conn=5""" % (host, port, weight)
    Lucups
        12
    Lucups  
       2014-05-24 22:42:16 +08:00
    万能的淘宝
    ThomasHuang
        13
    ThomasHuang  
       2014-11-19 17:12:34 +08:00
    @binux 不好意思,我没怎么用过Squid,不怎么看懂您的意思。Squid怎么才能做到动态添加代理池地址,并且自动调整权重?

    您的意思是动态生成配置文件,然后重启吗?

    最近我自己用gevent和pycurl自己实现了一个简单的代理,主要是代理池里,除了http代理,还有https,socks4,socks5,请问你所说的方式支持https和socks协议吗?我查看Squid的文档,上面来看,似乎cache_peer只能设置http代理是吗?
    binux
        14
    binux  
       2014-11-19 17:32:09 +08:00   ❤️ 1
    @ThomasHuang 就是重启。。只用过http,不会动态调权,只会自动重试。
    ibreaker
        15
    ibreaker  
       2015-06-05 14:42:09 +08:00
    @mengli 淘宝怎么买?
    dgivan
        16
    dgivan  
       2016-09-18 15:40:35 +08:00
    。。。。。。。。。。。。用高质量的代理 IP 吧。
    阿布云代理,曲以代理。等等
    http://www.abuyun.com
    ibreaker
        17
    ibreaker  
       2016-09-29 10:02:15 +08:00
    @dgivan 我还以为阿里云 。。。醉了
    qsnow6
        18
    qsnow6  
       2017-02-07 15:17:12 +08:00
    @binux 有没有配置文件参照,我写了一份,发现不能正常工作

    https://www.v2ex.com/t/338729#reply0
    rocketman13
        19
    rocketman13  
       2018-11-02 21:18:42 +08:00
    @binux 你好,我的 squid 正向代理池 总是使用不了,不知道什么原因,有空帮忙看看配置文件吗?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   949 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 21:44 · PVG 05:44 · LAX 13:44 · JFK 16:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.