目标是用了 CF 的付费计划,有缓存,目标是每次请求都让 CF 回源,最终目标是将请求间隔降到 50-100ms
尝试用 censys 找源站 IP 没找到,所以只能从 CF 的入口着手
直接 curl 会触发 CF 的 403,这里用 tls 指纹解决了
然后用 URL 混淆突破了缓存,但是只要请求的频率稍稍快一点,就会触发 429 error code: 1015
这里查了官方文档说是请求超过回源限制了,但是返回的 Retry-After 是 0
已经使用了代理,但是是同一个 C 段内的 64 个 IP ,机房 IP
目前尝试了几种情况 结果是这样
1.TLS 验证,代理轮询,间隔 5 秒,模拟 IOS => 可以正常访问
2.TLS 验证,代理轮询,间隔 5 秒,随机模拟 IOS/SAFARI/CHROME => 偶尔报 429-1015 错误
3.TLS 验证,不使用代理,间隔 5 秒 随机模拟 => 成功 8 次后 返回 2 次 429-1015 ,成功 13 次,失败 1 ,成功 3 ,后面几分钟成功率基本在 90%以上,20 分钟后成功率 50%左右
4.TLS 验证,代理轮询,间隔 500 毫秒,随机模拟 IOS/SAFARI/CHROME => 偶尔报 429-1015 错误,成功率 40%左右
如果用那种住宅 IP 代理服务的话延迟达不到要求,尝试过几个都是 500ms 左右才会返回结果
有大佬做过相关的东西吗,求思路,孩子没招了
1
AkinoKaedeChan 1 天前
IPv4 的空间不大,可以扫一遍看看能不能找到源站
|
2
CC11001100 1 天前
|
3
l1ve OP @CC11001100 不至于... 就一个要求实时性高的爬虫而已
已经有一个其他的目标用了 cloudfront 这样搞定了 |
4
l1ve OP @AkinoKaedeChan 考虑过,但目标安全方面做的很到位,严重怀疑就算打到源站了,也没法直接带着 HOST 访问
|
5
NewYear 1 天前
等等,你是想要 100 毫秒内的实施页面信息?甚至还要穿透缓存?
这信息的及时性重要性这么高吗? 那如果全天候都要扫描实时信息,那就是 86400*(1/0.1)=86.4 万访问量。 也就是说光你一个人就达到了可怕的 86 万每天的访问量。 恐怖如斯,恐怖如斯啊!!! |
6
NewYear 1 天前 一般的话扫描整个 ipv4 是有可能得到源站 IP ,如果无法得到,只有三种可能。
1 、人家用的不是 80/443 ,在 CDN 上做了重定向,那么你需要扫描整个 tcp 范围 65535 个端口。 2 、人家开了白名单。 3 、人家 cdn 访问的 host 不是你用的这个 host ,又或者加了其他 http 请求参数。 |
7
cnrting 1 天前 via iPhone
老哥哥可太狠了
|
8
duzhuo 1 天前 就算是找到了源站的的 IP 和端口大概也没有办法,肯定有白名单的 只允许 Cloudflare 的 IP 地址段访问
|
9
zencitta 1 天前
看起来像是是抓取菠菜网站
|
10
AkinoKaedeChan 1 天前
@NewYear 我在我自己的站点上基本上都配了 mTLS ,扫描器 TLS 握手都完不成(
|
11
xwayway 1 天前
也许有个办法可以解决代理 ip 问题😂
|
13
l1ve OP |
17
lisxour 22 小时 30 分钟前
一看就是炒币抓上新的
|