V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
tikazyq
V2EX  ›  程序员

爬虫管理平台 Crawlab v0.4.10 发布(日志集中管理)

  •  1
     
  •   tikazyq ·
    tikazyq · 2020-04-22 09:28:56 +08:00 · 1531 次点击
    这是一个创建于 1675 天前的主题,其中的信息可能已经有所发展或是发生改变。

    前言

    本次更新包括几个部分:

    1. 日志集中管理
    2. 自动安装依赖
    3. 开放 API
    4. Web Hook
    5. 自动生成结果集

    更新日志

    功能 / 优化

    • 优化日志管理. 集中化管理日志,储存在 MongoDB,减少对 PubSub 的依赖,允许日志异常检测.
    • 自动安装依赖. 允许从 requirements.txtpackage.json 自动安装依赖.
    • API Token. 允许用户生成 API Token,并利用它们来集成到自己的系统中.
    • Web Hook. 当任务开始或结束时,触发 Web Hook http 请求到预定义好的 URL.
    • 自动生成结果集. 如果没有设置,自动设置结果集为 results_<spider_name>.
    • 优化项目列表. 项目列表中不展示 "No Project".
    • 升级 Node.js. 将 Node.js 版本从 v8.12 升级到 v10.19.
    • 定时任务增加运行按钮. 允许用户在定时任务界面手动运行爬虫任务.

    Bug 修复

    • 无法注册. #670
    • 爬虫定时任务标签 Cron 表达式显示秒. #678
    • 爬虫每日数据缺失. #684
    • 结果数量未即时更新. #689

    产品规划

    • 结果展示
      • 支持其他数据库
    • 爬虫
      • 支持容器爬虫
      • 长任务爬虫支持
    • 可配置爬虫
      • 可配置爬虫支持 Splash
      • 可配置爬虫支持 CrawlSpider
      • 可配置爬虫支持正则表达式字段
    • 定时任务
      • 日历展示
    • 服务器
      • 支持终端操作 Docker 镜像
    • SDK
      • 更多命令支持
    • 全局
      • 热更新

    参考

    社区

    如果您觉得 Crawlab 对您的日常开发或公司有帮助,请加作者微信 tikazyq1 并注明 "Crawlab",作者会将你拉入群。欢迎在 Github 上进行 star,以及,如果遇到任何问题,请随时在 Github 上提 issue 。另外,欢迎您对 Crawlab 做开发贡献。

    6 条回复    2020-04-22 15:38:06 +08:00
    eoo
        1
    eoo  
       2020-04-22 11:20:33 +08:00
    支持一个吧
    pliex
        2
    pliex  
       2020-04-22 11:36:59 +08:00
    直接过来支持一波大佬
    tikazyq
        3
    tikazyq  
    OP
       2020-04-22 11:43:19 +08:00
    @eoo
    @pliex 感谢支持
    forever139
        4
    forever139  
       2020-04-22 14:10:08 +08:00
    支持,很早就 star 过
    tikazyq
        5
    tikazyq  
    OP
       2020-04-22 15:04:44 +08:00
    @forever139 感谢支持
    jasy
        6
    jasy  
       2020-04-22 15:38:06 +08:00
    支持一下······
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5250 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 03:41 · PVG 11:41 · LAX 19:41 · JFK 22:41
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.