V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  dsg001  ›  全部回复第 33 页 / 共 40 页
回复总数  795
1 ... 25  26  27  28  29  30  31  32  33  34 ... 40  
2017-05-21 18:38:39 +08:00
回复了 xiaoyu9527 创建的主题 Python scrapy 的速度真的很不给力呀?
```python
# Configure maximum concurrent requests performed by Scrapy (default: 16)
# CONCURRENT_REQUESTS = 32
```
可以修改配置,但采集的瓶颈从来都不是并发,如果图片下载建议采集网址,之后调用 wget 下载,速度更好
少上张大妈,只关注自己需要的,受到价格提醒再入手
2017-05-20 08:01:05 +08:00
回复了 Andor_Chen 创建的主题 Python 送几本《流畅的 Python 》
碰碰运气,万一中了呢
2017-05-19 18:25:27 +08:00
回复了 Jessss 创建的主题 Python 为什么 scrapy 爬虫没有一次性爬完 Rule 所需要的所有数据呢?
@Jessss 返回脏数据吗?只能加日志,一步步调试检查
2017-05-18 21:29:38 +08:00
回复了 tianxiacangshen 创建的主题 PHP 大家都怎么防采集的?哪一种性能最高?
会员限制,超过阀值则每次访问都需要验证码
2017-05-18 14:35:19 +08:00
回复了 Jessss 创建的主题 Python 为什么 scrapy 爬虫没有一次性爬完 Rule 所需要的所有数据呢?
深层的模板有变化导致规则抓取不到,检查下最终页的模板是否匹配规则
2017-05-17 20:55:16 +08:00
回复了 alexapollo 创建的主题 程序员 有什么 V 站同学们喜欢看的小说吗?
既然有神墓,《完美世界》《遮天》《圣墟》都可以吧,《黑山老妖》《龙蛇演义》都很不错
@tenngoxars 不像刷的,有可能是某人对你的网站感兴趣,在做 seo 分析,这种外链已经没用了,不用在意
2017-05-13 11:27:31 +08:00
回复了 dsg001 创建的主题 问与答 scrapy 批量运行爬虫,结束时莫名卡住
@panyanyany py3.5,版本的问题吗? 想了解到底是啥原因导致的,这些爬虫如果单独执行完全没有问题,而且强制 kill 进程会导致一些 spider_closed 无法执行
粗看抓错标签,应该 find_all('img', class_='height'),推荐用 lxml 的 xpath or cssselect,
被 SEO 大神分析了
2017-05-12 19:23:31 +08:00
回复了 PythoneerDev6 创建的主题 全球工单系统 简书,挂掉了?
dns 解析到错误 ip ?
钱多事少离家近
2017-05-10 19:38:05 +08:00
回复了 bb2018 创建的主题 Python Python scrapy pipelines 里面的 item 怎么按里面的一个字段值排序?
使用 orderdict 排序吧
2017-05-09 19:01:20 +08:00
回复了 phpuser 创建的主题 Linux 请问 Linux 不同主机如何迁移呢?
如果只是 lnmp 很容易,新机器安装相同版本 lnmp,然后配置、数据直接 sync 过去就行
2017-05-08 08:36:06 +08:00
回复了 dsg001 创建的主题 Python 用 requests 替代 scrapy 的下载器,发现速度很慢,求解
@danhahaha 对方代码应该是经过漫长时间考验,比较稳定可靠的,如果重构能保证提高效率而且没坑吗?如果只是因为洁癖就去重构客户代码,这才是坑吧
画重点:需求很简单,对方也要求低,客户比较好,按时间付费;

那就慢慢来呗,客户又没有要求重构
2017-05-06 08:28:42 +08:00
回复了 cxz 创建的主题 Python 2017 年 5 月的现在,还有什么理由不使用 Python 3?
老项目懒得折腾,新项目坚定 py3
2017-05-05 21:38:01 +08:00
回复了 chroming 创建的主题 Python Fluent Python 中文电子版已经可以购买了
天猫京东看了一圈都是预售
1 ... 25  26  27  28  29  30  31  32  33  34 ... 40  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   864 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 52ms · UTC 19:19 · PVG 03:19 · LAX 12:19 · JFK 15:19
Developed with CodeLauncher
♥ Do have faith in what you're doing.