V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Lunrry
V2EX  ›  服务器

Linux 多主机监控方案

  •  
  •   Lunrry · 244 天前 · 1956 次点击
    这是一个创建于 244 天前的主题,其中的信息可能已经有所发展或是发生改变。

    本人刚入职运维不久,现在公司内部有几十台服务器,同时不同客户单位也平均每家有两三台服务器需要运维管理。想要寻求一个方案,能够实时监控每台服务器的健康状态,我公司部署的服务健康状态,发生异常能够及时报警通知。目前想到的是利用 zabbix 进行监控,还请各位指点一下。

    26 条回复    2023-10-17 10:42:02 +08:00
    jstony
        1
    jstony  
       244 天前
    公司之前没有服务器监控?先问问前任怎么管理这些机器的。
    zhhmax
        2
    zhhmax  
       244 天前
    prometheus+grafana ,也挺好用的,我自己的几台服务器就用的这个.
    Lunrry
        3
    Lunrry  
    OP
       244 天前
    @jstony #1 以前的运维溜了,我是来接盘的,就我一个运维,我在 SVN 里面没看到有啥监控方案,感觉应该是手搓的
    libook
        4
    libook  
       244 天前
    先看是不是服务器上有现有的满足需要的监控方案,如果没有再考虑加监控。

    在满足监控需求的基础上,哪个顺手就用哪个,比如你对 zabbix 熟悉就用 zabbix ,如果对 prometheus 熟悉就用 prometheus 。
    Lunrry
        5
    Lunrry  
    OP
       244 天前
    @zhhmax #2 我去了解下,可以适应这种不同网络环境下的情况吗
    greenskinmonster
        6
    greenskinmonster  
       244 天前
    zabbix 没啥问题,很好用
    Lunrry
        7
    Lunrry  
    OP
       244 天前
    @libook #4 zabbix 会简单的安装配置,prometheus 完全没接触过,哪种方案入门容易呢
    libook
        8
    libook  
       244 天前
    @Lunrry #7 没有更容易的,都是在满足需求的基础上先入为主。比如你 zabbix 熟悉一些,相比来说可能就比 prometheus 少一些学习成本。
    Lunrry
        9
    Lunrry  
    OP
       244 天前
    @libook #8 我觉得主要的难点是服务器位于不同地区,有的客户服务器没有公网 IP ,通过堡垒机连上的
    libook
        10
    libook  
       244 天前
    @Lunrry #9 多个网络的情况,比较理想的做法是做专用的通道来将监控数据集中收集。比如数据从每个网络以加密的方式推送到中心监控服务器。

    你可以看看 Zabbix 的官方文档,看是否可以在每个网络内使用 Zabbix Proxy 来收集网络内的监控信息,然后再让 Zabbix Proxy 主动推送信息到网络外的中心 Zabbix 服务器。
    internelp
        11
    internelp  
       244 天前
    @Lunrry zabbix 可以拉可推,配置推数据就可以了。
    Lunrry
        12
    Lunrry  
    OP
       244 天前
    @libook #10 好的 多谢了,我去研究研究
    Martin123123
        13
    Martin123123  
       244 天前
    还可以尝试类似于 哪吒监控 的方式,顺便可以做一下探针
    Aumujun
        14
    Aumujun  
       244 天前
    单纯只是主机监控的话 推荐 zabbix ,有上 k8s ,可以 prometheus ,生态比较好。
    tool2d
        15
    tool2d  
       244 天前
    写点脚本,写个循环 ping ,ping 每一个服务器。

    ping 不通超过几次就邮件报警。
    Lunrry
        16
    Lunrry  
    OP
       244 天前
    @tool2d #15 这个只能监控服务器是否在线吧,而且别人单位的服务器有的在内网,有的禁止 ping
    Foxkeh
        17
    Foxkeh  
       244 天前
    十几台机器, 我是用的 zabbix, 告警是 Email+企业微信机器人
    楼上说的 prometheus+grafana 方案听过好多次了, 等有空我也打算学习下
    kumago
        18
    kumago  
       244 天前
    Uptime Kuma 简单
    lifekevin
        19
    lifekevin  
       244 天前
    我现在用的方式是 prometheus+grafana ,不在同个网络的内网机器使用 vpn 通道来传输数据。
    vpn 通道是用 wireguard 部署的,只要有一端有公网 IP 就可以了。
    部署之前啥方案都不熟,所以选了当下比较多人推荐的方案,自己看文档慢慢测试就行。
    bohai
        20
    bohai  
       244 天前 via iPhone
    建议 op 直接选用熟悉的 zabbix 来监控,不同地区使用 proxy 来完成数据采集。
    devopsdogdog
        21
    devopsdogdog  
       244 天前
    zabbix 简单易用,监控 url 和 主机状态够了,自定义脚本也灵活

    客户的服务器状态就别管了,除非你们是 包括运维,否则 挂了再说吧,机器不在你这,一般就是代表客户自己管理吧。
    user100saysth
        22
    user100saysth  
       243 天前 via iPhone
    @lifekevin 客户的机器上装组网?
    你是认真的吗
    Lunrry
        23
    Lunrry  
    OP
       243 天前
    @devopsdogdog #21 基本上就是客户将几台服务器交给我们,我负责公司平台的私有化部署,服务出问题以及服务升级需要去处理。连接方式有通过向日葵等连接内网 Windows 前置机再 ssh 进服务器;堡垒机登陆; vpn 登陆。这种情况下可以通过 zabbix proxy 收集状态与 zabbix server 通信告警吗
    devopsdogdog
        24
    devopsdogdog  
       243 天前
    @Lunrry 有内网要求的,一般都不会允许,除非客户提出,否则别搞。你想想人家为啥要搞 vpn 搞堡垒机,你搞个监控在人家机子上,你们算啥。
    Lunrry
        25
    Lunrry  
    OP
       243 天前
    @devopsdogdog #24 这个确实安全方面是个问题,不要稍微有点事就得背锅
    jstony
        26
    jstony  
       243 天前
    @Lunrry 看你描述的环境,你可以考虑了解一下公司的系统维护策略,是不是确实需要做提前预警介入。会不会本身规划的就是等待客户报障,分配工单,接单处理。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   861 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 21:10 · PVG 05:10 · LAX 14:10 · JFK 17:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.