V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Cy86  ›  全部回复第 1 页 / 共 5 页
回复总数  89
1  2  3  4  5  
@iorilu 那还是得上手干, 遇到问题处理完了之后再总结出一个通用方案, 爬虫最需要考虑的是反爬, 其他的都比较简单,没太多需要考虑的
楼主不理我,我再捞一下, 目前我负责的爬虫抓取量每天在百万级, 月抓取量在亿级,主做舆情的
推荐:
百条用 requests 就行
几十万条有时效性就 aiohttp
同一个网站大量数据, scrapy 和 feapder 都可以
上亿条自己开发爬虫框架
你说的这几个问题: 访问限制, 需要登陆, 代理轮询, 执行 js, 错误重试
访问限制, 需要登陆: 对于反爬都是针对目标单独定制的,市面上没有能包含所有反爬的的框架
代理轮询最简单的就自己整个队列, 每次爬虫轮着取代理 ip, 对于账号绑定 IP 的,就单独开个服务针对要爬的渠道固定 IP
执行 js 可以单独作为一个服务旁运行, 需要执行的 js 扔进去只关注返回结果就好

感觉你可以说说你的整体目标是啥
我觉得 requests 应该够了吧, 直接把接口抓出来比较简单,我最近也在鼓捣爬虫练手, 你这是要爬啥网站呢
把这活儿外包出去, 嘴上说让他们手动点击(后端是爬虫), 速度别太快, 这样你就安全了
243 天前
回复了 Cy86 创建的主题 Python Python 爬虫并发极限是多少呢?
@macaodoll #29 感谢建议, 目前只是突然想到了技术上的问题, 在纠结 Python 为啥并发上不去, 卡点在哪
243 天前
回复了 Cy86 创建的主题 Python Python 爬虫并发极限是多少呢?
@shanyaoxingtong #31 后面接了 5 家的代理池, 每天的总请求 13 亿, qps 能达到 15K, 咱们先讨论技术再讨论代理
243 天前
回复了 Cy86 创建的主题 Python Python 爬虫并发极限是多少呢?
@chengxiao #28 每错是舆情
248 天前
回复了 Cy86 创建的主题 Python Python 爬虫并发极限是多少呢?
@chengxiao #26 日常监控 30 万个网站的更新, 每 5 分钟跑一次, 不需要账号和风控, 单站点请求一分钟一次都没有
@fkdtz #42 哦哦, 我以为你用了啥放大原理, 用很小的流量大比如 1:100 打他, 我这是杀敌 1000, 自损 1000
@fkdtz 求教程, 我这一星期收好几次, 我目前用 vps 跑, 只能跑到 50MB/s
64e807229ba63310b923360e
谢谢老板
有啥方式可以白嫖永久会员么? 比如写文章,或者写文档之类的
最大的成本在上行带宽, 北京 200M 上行平均下来每个月 260 左右, 如果在云服务器就贵上天
354 天前
回复了 alexhx 创建的主题 北京 所以有什么渠道可以买到点烟花?
@fredweili #20 注意别买错了, 不然点半天点不着, 仔细一看是 TM 焊条
大家手速都太快了, 没有了
2022-11-03 21:56:56 +08:00
回复了 biuyixia 创建的主题 程序员 单页 html 加上密码的这种方式安全吗?
如果需求中的安全仅对于小白, 且页面没有很大的商业价值也是可以的
反正只要对方想爬你, 你又不是大公司, 对反爬也没那么严格, 他们怎么着都能爬, 不如节省成本挡住小白足够
愿意的话加点难度,搞一个接口验证返回数据插到 body 里
2022-10-31 21:38:04 +08:00
回复了 Salticey 创建的主题 生活 电脑 DIYer 是最可怜的一群人
我从 1080Ti 等到了现在 4090 都出了
1  2  3  4  5  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2977 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 28ms · UTC 07:23 · PVG 15:23 · LAX 23:23 · JFK 02:23
Developed with CodeLauncher
♥ Do have faith in what you're doing.