V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
Nick2VIPUser
V2EX  ›  Python

诸位爬虫工程师使用什么平台/系统/开源项目来监控、维护和管理爬虫?

  •  
  •   Nick2VIPUser ·
    nickliqian · 2018-04-04 13:42:15 +08:00 · 6035 次点击
    这是一个创建于 2460 天前的主题,其中的信息可能已经有所发展或是发生改变。

    公司爬虫刚起步,想找一个工具用来管理和维护未来写的爬虫,在此请教一下大家顺便多学一点东西。

    平时写爬虫 requests 和 scrapy 都有用过。

    15 条回复    2020-01-10 20:14:15 +08:00
    samding123
        1
    samding123  
       2018-04-04 14:23:16 +08:00
    spiderkeeper
    samding123
        2
    samding123  
       2018-04-04 14:23:48 +08:00
    Nick2VIPUser
        3
    Nick2VIPUser  
    OP
       2018-04-04 15:41:59 +08:00
    @samding123 昨天用过大神的项目,界面和功能特别棒!
    但我把 egg 文件上传上去后,spider 就是显示不出来,然后暂时放下了-_-
    beforeuwait
        4
    beforeuwait  
       2018-04-04 16:18:42 +08:00
    我也困惑
    shuizhengqi
        5
    shuizhengqi  
       2018-04-04 16:48:27 +08:00
    pyspider 吧
    farverfull
        6
    farverfull  
       2018-04-04 19:00:49 +08:00
    OpsPlatform
    Cryse
        7
    Cryse  
       2018-04-04 19:43:23 +08:00
    同样的疑惑,目前在用 scrapyd 和 spiderkeeper, 但是感觉 scrapyd 不太好用.
    bazingaterry
        8
    bazingaterry  
       2018-04-04 19:45:58 +08:00 via iPhone
    我以前团队是自己写的,糅合 pyspider 和 scrapy
    qsnow6
        9
    qsnow6  
       2018-04-04 22:17:28 +08:00
    spiderkeeper
    qwertty01
        10
    qwertty01  
       2018-04-05 08:30:56 +08:00
    上架市场吧,用不了
    qwertty01
        11
    qwertty01  
       2018-04-05 08:31:24 +08:00
    Sorry,回复错了 0.0
    Nick2VIPUser
        12
    Nick2VIPUser  
    OP
       2018-04-08 09:46:40 +08:00
    @shuizhengqi 打算过段时间再学 pyspider -_-
    @farverfull 您说的这个 OpsPlatform 搜不到额...
    @bazingaterry 实在不行就打算自己写个轻量一点的爬虫平台,慢慢加功能
    @qsnow6 我用 spiderkeeper 有点 bug 还没有解决 /哭
    @beforeuwait 哈哈,那咱是同道中人
    @Cryse scrapyd 没有 UI,但是可以自己写界面然后调用 scrapyd 文档提供的 API
    my8100
        13
    my8100  
       2018-10-25 21:11:15 +08:00
    scrapydweb:实现 Scrapyd 集群管理,Scrapy 日志分析和可视化 https://github.com/my8100/scrapydweb
    my8100
        14
    my8100  
       2018-11-15 11:39:14 +08:00
    @my8100 本站搜索:如何简单高效地部署和监控分布式爬虫项目
    tikazyq
        15
    tikazyq  
       2020-01-10 20:14:15 +08:00
    可以试试 Crawlab,非常灵活的分布式通用爬虫管理平台,支持任何框架和语言,当然包括 scrapy、selenium、puppeteer 等等

    https://github.com/crawlab-team/crawlab
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2745 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 14:28 · PVG 22:28 · LAX 06:28 · JFK 09:28
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.