如题,有点急,在线等
1
youngs 2020-04-22 17:13:11 +08:00
你都这么问了,说明你自己都知道有安排进去的风险的
|
2
Cmdhelp 2020-04-22 17:14:42 +08:00
你倒是说什么网站啊, 淘宝京东这么你就大胆爬,就你那点流量人家不 care
|
4
radiocontroller 2020-04-22 17:17:22 +08:00
里面个个都是人才,说话又好听,超喜欢里面的感觉
|
5
nellace 2020-04-22 17:19:52 +08:00 via iPhone
值得买的数据不也是爬的嘛,进去了的话前后脚把他也拉进去呗
|
6
Cmdhelp 2020-04-22 17:20:30 +08:00
去吧 */p/ allow
|
7
magicdu 2020-04-22 17:21:15 +08:00
打工是不可能打工的
|
9
foreverfuck OP User-agent: *
Disallow: /fenlei/3cjiadian Disallow: /fenlei/jujiashenghuo Disallow: /fenlei/shishangyundong Disallow: /tag/%E4%BB%80%E4%B9%88%E5%80%BC%E5%BE%97%E4%B9%B0 Disallow: /contact-us Disallow: /baoliao/ Disallow: /*?* Disallow: /*=* Disallow: /jingxuan/xuan* Sitemap: http://www.smzdm.com/sitemap/smzdm_sitemap.xml Sitemap: http://www.smzdm.com/sitemap/smzdm_youhui.xml Sitemap: http://www.smzdm.com/sitemap/smzdm_tag1.xml Sitemap: http://www.smzdm.com/sitemap/smzdm_tag2.xml Sitemap: http://www.smzdm.com/sitemap/smzdm_tag3.xml Sitemap: http://www.smzdm.com/sitemap/smzdm_tag4.xml Sitemap: http://www.smzdm.com/sitemap/smzdm_tag5.xml |
10
EricCartmann 2020-04-22 17:47:30 +08:00 via iPhone
爬人家吃饭的老本是不是有点过分。
|
11
annielong 2020-04-22 17:51:16 +08:00
流量不大,频率不高一般都没事
|
12
zictos 2020-04-22 18:01:39 +08:00
@nellace 部分可能是手动发的吧?现在不止官方的人可以发,用户也可以发布优惠商品。反正他们不数据来源不单一,所以就比单一来源的爬虫更能为自己开脱
|
13
Stain5 2020-04-22 18:03:07 +08:00
爬虫所带来风险主要体现在以下 3 个方面:违反网站意愿,例如网站采取反爬措施后,强行突破其反爬措施;爬虫干扰了被访问网站的正常运营;爬虫抓取了受到法律保护的特定类型的数据或信息。那么作为爬虫开发者,如何在使用爬虫时避免进局子的厄运呢?严格遵守网站设置的 robots 协议;在规避反爬虫措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运行;在设置抓取策略时,应注意编码抓取视频、音乐等可能构成作品的数据,或者针对某些特定网站批量抓取其中的用户生成内容;在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除。
作者:freedomer.yu 链接: https://www.zhihu.com/question/291554395/answer/476074383 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 |
14
tanxiaoluo 2020-04-23 19:52:53 +08:00
去星罗好货调一把 API 呗,张大妈旗下平台
|