现在大家爬虫爬淘宝都是用什么办法能全站大量爬取啊?给个思路吧?能用手机 app 端爬取吗?

目前在搞电商爬虫,
京东还行,还是能爬取的,一台机使用 scrapy 开个四个假的分布式窗口(配置差,不敢开太多,怕一觉起来电脑卡死),ip 被 ban 也不是很严重,除了一些页面需要使用 selenium 抓取之外(图书页面要下滑加载 js),其他的页面都可以直接抓取,不过如果中间掺杂需要 selenium 的页面会很慢,12 小时总共能爬 8w 页面(因为 scrapy 回调函数),一台机器能爬 3w 数据算多的了..

但是淘宝就恶心到我了........ 反爬很严重,用 selenium 爬几下就 gg, cookies 之后也用不了,除非用新的,再说我也没有那么多账号弄 cookies

根据用户行为来判断是否爬虫的吗?

还是查找原始 ip 来 ban 掉 ip?高匿 ip 不行吗?

那么能使用 app 加 mitmdump 拦截抓取数据保存,还是通过 pc 端加自制脚本(非 selenium)模拟用户点击+mitmweb 拦截数据?

Selenium

页面

爬

Scrapy

49 replies • 2020-07-10 12:02:28 +08:00

VDimos

Jun 22, 2019 via Android

为啥说的不让你爬错了一样，于情于理不让你爬都没问题

shanlan

Jun 22, 2019

未经同意，擅自爬取数据违法。

o00o

Jun 22, 2019 via Android

PC 端连正常用户都受影响了，更何况爬虫了

z1421012325

Jun 22, 2019

@VDimos 我也知道啊,但是学习不商用,而且也不是要全部爬取,只要能运行成功一天就好了

z1421012325

Jun 22, 2019

@o00o app 端有没有试过?,我这边弄不了,机器开虚拟机配置不行,淘宝都打不开...

daquandiao2

Jun 22, 2019

你最后不都想到两种办法了怎么不试试

z1421012325

Jun 22, 2019

而且我不一定全站爬取,只要热门商品前面的就行,大概是每个商品爬个 5 60 页就爬下一个

z1421012325

Jun 22, 2019

@shanlan 学习不商用,试试爬爬,加强技能

q397064399

Jun 22, 2019

@shanlan #2 敞开大门做生意，换个姿势就不让插了？真的是搞笑，哪天说不定我浏览器打开一下淘宝，就被定义为爬虫把我给抓走了，口袋罪何患无辞

z1421012325

Jun 22, 2019

@daquandiao2 都算是构想,第一种我机器配置不行,在模拟器中开淘宝直接卡死,第二种还在想怎么弄,这不来 v2 上看看大家有什么思路不?

Baboonowen

Jun 22, 2019

虽然我也写爬虫，但我不会觉得人家不让你爬错了……

z1421012325

Jun 22, 2019

@Baboonowen 也对,但是爬虫就是要反反爬吧

run2

Jun 22, 2019

讨厌这些害的我正常浏览都要登录的爬虫，但同时觉得，电商网站就应该明码实价，提供 API 给出价格都是应该的

zxcslove

Jun 22, 2019

@q397064399 根子就是不想公开竞争，弄羊毛忽悠用户，不好忽悠的用户都去死

zxcslove

Jun 22, 2019

@shanlan 相当于规定销售商品应当明码标价的情况下，未按商场指定方式看价格违法

Jirajine

Jun 22, 2019 via Android

mitm 可以试试吧，用大量客户端+自动操作脚本。我就是用这玩意配合自动操作脚本爬取一些 flash 内容（逆向 ActionScript 太痛苦）

cabing

Jun 22, 2019

我以前觉得还行吧~~，分析页面 js，ip 可以买个代理啥的。

以前公司有个店铺卖书的，买个工具需要花钱，为了省钱，就爬过自己店铺的数据，然后再整理和分析。。

vzev

Jun 22, 2019

"但是淘宝就恶心到我了" 淘宝肯定也在想你恶心到它了,哈哈！

kppwp

Jun 22, 2019 via iPhone

是通过用户行为分析的，一般还是用大量 ip 代理去解决问题。

mrcn

Jun 22, 2019 via Android

淘宝天猫…我正常用户都用不了…

akira

Jun 22, 2019

有海量 ip/账号肯定可以爬

z1421012325

Jun 22, 2019

@akira ip 倒是没啥问题,问题是账号,再说了如果被发现是爬虫,那么这个账号短时间内不能使用了,还有貌似每天都会让你登陆一次获取 cookies..

www6688w

Jun 22, 2019

用谷歌插件模拟真实用户采集试试呢？

compiler

Jun 22, 2019

我理解淘宝有反爬团队，干不过就加入，哈哈哈

turi

Jun 22, 2019

淘宝有自动拨号 vps，每次连上都是不同 ip.

hgjian

Jun 22, 2019 via Android

@turi 能提供一下搜索关键词吗？没找到啊

turi

Jun 22, 2019

@hgjian ip 混播
试试这个，去年还有拨号的 vps,今年就清理干净了。

turi

Jun 22, 2019

@hgjian

这个关键词，还有的
adsl ip

z1421012325

Jun 22, 2019

@www6688w 真实模式也没用啊,根据用户习惯分析就能轻松反爬,毕竟一个人不可能一天之内浏览这么多页面的

lonelygo

Jun 22, 2019

#24 @compiler 好办法，打入敌人内部。

UFc8704I4Bv63gy2

Jun 22, 2019 via Android

你们要爬什么我帮你们爬，一分钱一个商品可好？

minami

Jun 22, 2019

淘宝那个反爬策略，我一正常用户都觉得恶心，多开几个商品页面就开始弹东西了

jiejiss

Jun 22, 2019

把下滑、点击之类的，自己先实际操作七八遍，让程序 100%记录，然后重放出来
包括等待页面加载的时候鼠标的移动，或者是拖动浏览器的右侧滚动条，也要录
每两次操作之间的间隔建议也是基数+随机数

jiejiss

Jun 22, 2019

或者干脆接入打码平台

zdb1115

Jun 22, 2019 via Android

31 楼的可以爬一个品类的吗？

opengps

Jun 22, 2019 via Android

爬虫本不应该是被提倡的，毕竟原创成分太少，影响真原创方的负载能力。

DaWWW

Jun 22, 2019

动态 ip，控制访问速度，淘宝反爬很正常啊

dewi

Jun 22, 2019 via iPhone

TB 的话可以试试淘客的 api，或者直接爬大淘客上的，但是这个方法仅适用于有返利的宝贝，无返利的宝贝目前无解。。。

lovesky

Jun 23, 2019 via Android

selenium 是能被检测到的，你们要爬什么我帮你们爬，一分钱一个商品可好？

hgjian

Jun 23, 2019 via Android

@turi 感谢提供

bigbigeggs

Jun 23, 2019

这个爬取好像市场价，两毛一条。
selenium 好像不行，会有下拉框。
可以试试 ip，那种有真实用户下单的 ip 段

kingfalse

Jun 23, 2019 via Android

周瑜打黄盖，常威咬来福。

zzy578

Jun 23, 2019

我爬过一个店铺的，在 network 里找对数据的请求，分析 json 拿数据
这个 url 没有反爬，把 cookie 加上就可以

z1421012325

Jun 23, 2019

@zzy578 详情页没啥反爬,只是列表页不好弄

UFc8704I4Bv63gy2

Jun 23, 2019 via Android

@zdb1115 当然可以

Jaho

Jun 24, 2019

要付费爬算我一个[手动狗头]

yebo777

Jun 24, 2019

淘宝现在都不能正常使用，动不动就要验证

fank99

Jun 24, 2019

淘宝大众点评都是出了名的难爬。。没发现百度都说"由于该网站的 robots.txt 文件存在限制指令（限制搜索引擎抓取），系统无法提供该页面的内容描述"

gxlonline

Jul 10, 2020

需要挂上代理 IP，推荐：酷鱼代理 IP