1
explon 2014-11-18 18:07:16 +08:00
就是第一种方法,你觉得难度大网易不觉得
|
2
benjiam OP jd还能爬,淘宝没机会。不信你让百度去爬爬淘宝。如果百度把价格爬下来做推荐,阿里的市值立刻腰斩
|
3
zts1993 2014-11-18 18:25:22 +08:00
爬虫和JS发送都有。
内容插入明显是js代码实现的。 |
4
benjiam OP 我的意思各类网站jd z 淘宝 打折不打折,优惠,各种情况,他如何区分并插入的
|
5
wlh 2014-11-18 18:42:20 +08:00
你机子上的插件帮忙分析,然后发回服务器的,我有时候看美亚有些冷门物品的历史价格,没更新,过一会刷新页面就更新了,应该就是我贡献的数据了
|
6
benjiam OP @wlh js分析网页内容再回吐不太现实。也就是我说的方案2 估计还是整个网页吐回去。服务器分析的 方案3。 如果插件安装量很大的话,每天回吐数据也会很高
|
7
mkeith 2014-11-18 18:48:10 +08:00
百度是因为这个淘宝robots.txt限制了
|
8
benjiam OP @mkeith 百度这么有节操了?有了百度导流量,没人买广告,直通车,没人去开天猫。你这是要马云的命。
我不太清楚慧慧对淘宝有无比价能力,如果有那多半考方案3 方案1 应该很快被屏蔽。方案2的问题是实现很麻烦,网站一变化,就得改。如果网站多个版本并存,那么靠js分析基本不可能 |
9
qazzaqqazzaq 2014-11-18 19:01:40 +08:00 1
这篇博文详细讲解了: http://techblog.youdao.com/?p=459
|
10
skybr 2014-11-18 19:09:09 +08:00
etao对淘宝的数据都收录不全, 实时性也不好, 别说第三方了.
|
11
benjiam OP @qazzaqqazzaq 谢谢 我主要疑惑的就是淘宝的价格抓取。如果抓取过程不被限制,其他的事情就是慢工细活了。3年前我抓了京东 15分钟可以把主流商品抓完。但是现在再跑已经会被屏蔽了
|
12
GhostFlying 2014-11-18 20:10:56 +08:00 via Android
个人抓取有难度不意味着网易抓取有难度,所以没必要让客户回传页面
|
13
benjiam OP @GhostFlying 抓取的难度在于被屏蔽,足够多的IP加上变化策略是能抓取的。
|
14
GhostFlying 2014-11-18 20:19:59 +08:00 via Android 1
@benjiam 是的,所以对网易而言回发url就足够了
|
15
lincanbin 2014-11-19 00:10:33 +08:00
http://www.jd.com/robots.txt
这玩意跟一淘一个原理,就是个爬虫,而且不检查robots.txt |
16
CupTools 2014-11-19 05:03:09 +08:00
HoverHound
|