首页   注册   登录

q9REUgpVVCU77pWj

V2EX 第 311699 号会员,加入于 2018-04-25 21:13:53 +08:00
q9REUgpVVCU77pWj 最近回复了
85 天前
回复了 bjt5521 创建的主题 Python 代理云为爬虫提供分布式代理 IP 解决方案
@bjt5521 已经是采的移动端的了,模拟账号,账号 ip 和请求头对应,行为模拟,也没用。
我估计可能用的是类似云服务商的大防火墙,不然不至于那么敏感,单 ip 一小时访问个百来次,几千个 ip 也不可能同时失效。
另一种可能就是还有许多其它同行也在爬,大家用的代理库都差不多,而且频次请求很高,碰到这种猪队友,那就没办法了。
也试过洋葱,太慢。估计还是要自己独占一批 ip 才可以了。
85 天前
回复了 bjt5521 创建的主题 Python 代理云为爬虫提供分布式代理 IP 解决方案
@bjt5521 恩,那个 403 是目前我碰到过风控最严格的了,频繁访问后触发,封禁期长。
我现在多 ip 轮换使用,被 ban 自动停用半小时,再加上一堆其他规则,目前一天访问只能做到 2w 次左右。
86 天前
回复了 bjt5521 创建的主题 Python 代理云为爬虫提供分布式代理 IP 解决方案
的确有需求。现在自己写了个池子,403 的定期唤醒试试通不通,凑合用着。
@opengps 说得没错,现在封得严的貌似都是基于云的。之前买的代理,用下来还是很容易 403。
google 搜索 temp sms
87 天前
回复了 q9REUgpVVCU77pWj 创建的主题 Python [小白] 请教个 Python import 的问题
搞定了 感谢两位
87 天前
回复了 Liang 创建的主题 程序员 为 SEO 做的类官网违法吗?
@Liang 加油加油。你爸在行业内资历深的话,可以找信得过的人探探别家的情况,业务逻辑和各个流程、个中利益关系、能拍板的角色、相关的 zf 部门等等,都可以先了解看看。
draw.io 你用 chrome app 版,无比好用,编辑本地文件就好了,自动保存,用上瘾。
87 天前
回复了 AX5N 创建的主题 Python 问 3 个爬虫问题,框架、并发数和数据清洗
- 一开始用过 scrapy,但现在还是自己写了 request,的确感觉区别不大。
- 并发偶尔用用,但前期不大用,因为不知道怎么抛出错误。。。加上好几个有反爬限制,速度要求也不很高,就还是单线了。
- 页面调整最直观的嘛就是报错。比如抓 json 的,没有 key 了。抓网页的,尽量条件写死一点,xpath 找不到,自然也就知道了。入库前稍微处理一下,该转类型的转一下,该整理的整理下,也很容易发现新类型或者错误。还有嘛就是爬完的数据要用,用用总会发现点毛病的。
87 天前
回复了 Liang 创建的主题 程序员 为 SEO 做的类官网违法吗?
其实这个无关技术,是利益关系的问题。
你爸也是从学校拿钱的……学校如果就是想省中介费,或者官网建设渠道的人关系比你们硬,总是个麻烦。
干脆做成第三方招生平台,再给竞品也递一下橄榄枝呗~
不要黑月饼厂的价值观啊!
这团建……是 HR 管的吗?
关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   鸣谢   ·   实用小工具   ·   1790 人在线   最高记录 3762   ·  
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.1 · 9ms · UTC 02:15 · PVG 10:15 · LAX 19:15 · JFK 22:15
♥ Do have faith in what you're doing.
沪ICP备16043287号-1