V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  imlonghao  ›  全部回复第 48 页 / 共 56 页
回复总数  1115
1 ... 40  41  42  43  44  45  46  47  48  49 ... 56  
2015-01-01 10:45:53 +08:00
回复了 permaylau 创建的主题 V2EX 请问一下 V2EX 是用什么网站程序搭建么?
我觉得这种帖子!根本!没必要回复

根据/go/qna的提问指南 /t/10686
2015-01-01 08:45:24 +08:00
回复了 efi 创建的主题 Linux 360 安全卫士 for Linux 使用结果
抵制国产软件真不是开玩笑的了
2015-01-01 00:15:25 +08:00
回复了 imlonghao 创建的主题 程序员 使用 Pyspider 爬取京东 Wap 版本商品价格
@binux 看到了,等我把之前的数据导入mysql再试试,待会@ 你
新年快乐
2014-12-31 23:46:31 +08:00
回复了 imlonghao 创建的主题 程序员 使用 Pyspider 爬取京东 Wap 版本商品价格
@invite 检查过的了,都是想要的结果,如果返回403之类的不会记录的,现在只是苦于不能优雅地导出数据。
2014-12-31 23:35:32 +08:00
回复了 imlonghao 创建的主题 程序员 使用 Pyspider 爬取京东 Wap 版本商品价格
@invite 那可能我人品好?35页/秒跑了500w商品没封
全部的问题就一个字,钱
国内所谓的免费杀毒软件,实际上就是将杀毒的费用转嫁到其他地方上,例如锁定你的首页赚广告费,脑子里想的不是如何把杀软做得更好,而是哪里可以获利
还是用国外吧,正因为不是免费的,所以人家才能认真专心做杀软,不搞其他那些没用的东西。所以什么时候见过NOD32推上网导航了,什么时候卡巴斯基推网购比价了。
差点忘了之前买了Sandboxie了
2014-12-31 23:12:35 +08:00
回复了 xiaoxinsng 创建的主题 SSL 用国产 SSL 会有什么问题吗, 比如沃通
哇 有SSL 等等 我去 国内证书
刚刚卸载了百度杀毒,但我想说,关360什么事?
2014-12-31 22:51:42 +08:00
回复了 imlonghao 创建的主题 分享发现 百度杀毒说好的不骚扰用户呢?
@zhs227 感谢,明天会把所有带有baidu字样的文件夹全部删掉
2014-12-31 22:51:02 +08:00
回复了 imlonghao 创建的主题 分享发现 百度杀毒说好的不骚扰用户呢?
@tammy 纯html网站,暂时没用第三方评论,所以不能评论
2014-12-31 22:07:42 +08:00
回复了 imlonghao 创建的主题 分享发现 百度杀毒说好的不骚扰用户呢?
@ChangeTheWorld @chloerei @rainy3636 @rainy3636 @crll @xiaoxinsng @blaboy @yjd
已经卸载百度杀毒,换上了大蜘蛛,就不讨论能不能卸载干净的问题了亲.
2014-12-31 21:07:09 +08:00
回复了 imlonghao 创建的主题 程序员 使用 Pyspider 爬取京东 Wap 版本商品价格
@binux
您看看吧。那这样的话要导出数据只能通过db那里来导?打算换去mysql好导出一下..
另外,我爬京东的时候用35/30这样来爬,算是快么?
2014-12-31 20:57:11 +08:00
回复了 imlonghao 创建的主题 程序员 使用 Pyspider 爬取京东 Wap 版本商品价格
@wangfeng3769
我刚刚说了我并没有爬不同地区的商品情况,我的VPS是日本的,所以只能爬了北京的情况。

不过我还是根据你的需求看了看京东的设计,大概能满足你的有求了。

商品页:
天津 > 东丽区 > 全境
provinceId=3 天津
cityId=51035 东丽区 | cityId=51042 静海区 | 等等...
countryId=39620 全境

其中,countryId默认天津都是全境,不需要另外设置,只需要设置cityID和provinceId即可。

想要看那个地区的库存情况,爬虫的时候设置不同天津(provinceId=3)地区的cityID即可。

我所贴的代码:
self.crawl(urljoin(each.attr.href,'?=').replace('?=',''), callback=self.in_page)

你要看天津的,就可以改成:
self.crawl(urljoin(each.attr.href,'?province=3&cityID=51042'), callback=self.in_page)

等等,其他自己发挥
2014-12-31 20:44:14 +08:00
回复了 imlonghao 创建的主题 程序员 使用 Pyspider 爬取京东 Wap 版本商品价格
@wangfeng3769 我只是爬了商品的名称、分类以及价格,没有爬有没有货这个..
@virusdefender 我就说你的ID怎么那么熟悉 哈哈
2014-12-31 20:37:02 +08:00
回复了 imlonghao 创建的主题 程序员 使用 Pyspider 爬取京东 Wap 版本商品价格
root@pyspider:~# wget 127.0.0.1:5000/results/dump/jd.json
--2014-12-31 20:31:43-- http://127.0.0.1:5000/results/dump/jd.json
Connecting to 127.0.0.1:5000... connected.
HTTP request sent, awaiting response...

就这样就不动了,我记得如果是流式输出的话wget不是这样的..
2014-12-31 20:29:56 +08:00
回复了 imlonghao 创建的主题 程序员 使用 Pyspider 爬取京东 Wap 版本商品价格
@binux 可能是这个的问题吧,前面有nginx和varnish,我试一试直接下载:5000的看看
可能吧 因为我昨天似乎看到v2ex有说解封得了
你可以看看昨天的帖子
我已换fastmail,这几天没上
1 ... 40  41  42  43  44  45  46  47  48  49 ... 56  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3046 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 40ms · UTC 12:20 · PVG 20:20 · LAX 05:20 · JFK 08:20
Developed with CodeLauncher
♥ Do have faith in what you're doing.