换工作后终于名正言顺写爬虫了,团队中只有我一个人写爬虫项目, 最近有个爬虫项目持续到年底,一天爬一个网站的速度,那么, 百来个爬虫项目如何管理呢? 我不用 scrapy, 有什么 tricky 或者建议请不吝赐教.
我期望的比较好的管理方式是部署到 web, 通过 web 管理. 实在不行就只能用 excel 管理啦.
1
50vip 2016-10-08 17:57:43 +08:00
不知道是什么意思~
|
2
wico77 2016-10-08 18:39:50 +08:00
pyspider, 不过这个适合定时爬。
|
3
Patrick95 2016-10-08 18:46:32 +08:00
用 Python 再写一个爬虫项目的 Web 管理系统嘛,应该不难呀。
|
4
wayslog 2016-10-08 18:59:06 +08:00 via Android
crontab+版本控制自动跑,考虑到迁移 ip 的事儿再用 ansible 写了个半自动化部署脚本。。。用的也挺好的
|
7
Kilerd 2016-10-08 20:11:43 +08:00
造轮子,造轮子!!!
|
8
crayonyi 2016-10-08 20:53:43 +08:00
我是自己写了一个通用爬虫系统,后面用 django admin ,管理 10 几个爬虫的爬取规则及定时任务
|
9
cphilo 2016-10-08 21:22:58 +08:00
所有爬虫采用配置,然后弄个消息队列用来调度爬虫任务,基本上维护起来非常方便了,生产环境中几百个站点实践过
|
12
anyforever 2016-10-09 09:19:47 +08:00
|
14
zluyuer 2016-10-09 12:29:13 +08:00
推荐采用 Rundeck 调度
|
15
brucedone 2016-10-09 16:41:57 +08:00
执行载体暴露 api ,以 xml 或者 json 做为标准格式,执行载体要有当前执行,待跑列表,历史记录,爬虫管理,执行或者删除等核心功能,然后以此的基础上,你就欢快的脱离语言自己造轮子吧。
|
16
brucedone 2016-10-09 17:26:22 +08:00
关于调度的,欢迎你使用这个。[调度]可视化的调度架构-Dagobah] http://brucedone.com/archives/754
|
18
ytmsdy 2016-10-09 20:48:53 +08:00
pyspider
|
20
tikazyq 2020-04-08 08:33:17 +08:00
crawlab
|