V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Eugene1024
V2EX  ›  问与答

服务器挂了如何自动提醒运维或则对应的后端人员?

  •  
  •   Eugene1024 · 2019-06-17 11:21:57 +08:00 · 3651 次点击
    这是一个创建于 2015 天前的主题,其中的信息可能已经有所发展或是发生改变。
    背景: 因为某种原因服务器挂掉了或则程序挂掉了,经常在休息的时候公司的人或则用户就打电话来,“小明,服务器又挂了,快起来看看是咋回事? ”
    我:怎么又挂了,等下我起来看看

    每次接到这种电话的时候都怀疑人生,而且在消息传递的期间有时间延迟,所以想到服务器挂了的时候能不能第一时间就提醒下运维或则后端人员,具体的提醒可能就有多种方式了,如短信,微信,邮件,电话等等,这里主要想了解下这种自动提醒的实现方式

    自己想到了一种方法: 找一个服务器 B 部署一个测试程序,测试程序打开,定时(比如一分钟)访问 A 服务器,如果访问 A 访问不到了触发提醒

    想知道还有其它哪些实用的实现方式
    第 1 条附言  ·  2019-06-20 23:53:31 +08:00
    谢谢各位大佬的回复,大佬们真的提供了很多思路
    yinanc
        1
    yinanc  
       2019-06-17 11:34:19 +08:00
    Cooky
        2
    Cooky  
       2019-06-17 11:35:35 +08:00 via Android
    你们运维没有监控系统???
    SakuraSa
        3
    SakuraSa  
       2019-06-17 11:38:47 +08:00
    感觉由服务器主动上传监控信息(调用量 /可用率 /延时)到监控服务器的方式比较普遍。
    监控服务器发现监控值超出设定的阈值,或者一段时间没有上报后报警。
    uqf0663
        4
    uqf0663  
       2019-06-17 11:40:30 +08:00 via Android
    阿里云有个 “云监控”可以用,不是阿里云的机器也可以用
    Eugene1024
        5
    Eugene1024  
    OP
       2019-06-17 11:40:59 +08:00
    @yinanc easy 老师写的工具,这个我知道,但这个只是消息提醒的方式,我实际上想知道如何检测到服务器或则程序蹦了
    @Cooky 小公司专职运维都没有,当然也没有监控系统
    rainfox
        6
    rainfox  
       2019-06-17 11:47:09 +08:00
    各种云监测服务……
    liwl
        7
    liwl  
       2019-06-17 11:49:23 +08:00
    @Eugene1024 找不找代维呀~
    johnniang
        8
    johnniang  
       2019-06-17 11:52:48 +08:00 via Android
    aricxu
        9
    aricxu  
       2019-06-17 12:00:17 +08:00   ❤️ 1
    我就简单粗暴了点,直接服务器上跑 shell 定时监控进程,如果挂了就 钉钉机器人 /其他机器人 /短信 /电话 通知一下;其实还可以直接重启进程的。检测的话,ps 一下咯。
    nanlou
        10
    nanlou  
       2019-06-17 12:03:12 +08:00   ❤️ 1
    如果生产环境在云上可以看看各家的云监控,如果是自有机房的话可以使用开源的 Zabbix、Nagios、Open-Falcon 之类的自建监控系统,话说这不是最基本的操作吗。。。。
    botian
        11
    botian  
       2019-06-17 12:23:20 +08:00 via Android
    @yinanc 服务器都挂了,怎么发通知?
    应该用外部的监测
    shm7
        12
    shm7  
       2019-06-17 12:59:34 +08:00 via iPhone
    直接定时访问,不就是最靠谱的手段么?你不管怎么检测,只要不访问,都无法确定服务是可访问的啊!
    awhane
        13
    awhane  
       2019-06-17 13:05:23 +08:00
    服务器 A 和服务器 B 都部署监控系统,最低保障监控系统的高可用。
    然后看下 https://prometheus.io/就行了
    internelp
        14
    internelp  
       2019-06-17 13:14:18 +08:00
    运维不知道有监控系统吗,挂了自动发消息。
    hand515
        15
    hand515  
       2019-06-17 13:25:50 +08:00   ❤️ 1
    心跳包、定时 ping
    37Y37
        16
    37Y37  
       2019-06-17 13:41:10 +08:00   ❤️ 1
    另外找个机器部署个监控系统,zabbix,nagios 啥的都行啊,有云服务最好了
    hopingtop
        17
    hopingtop  
       2019-06-17 13:49:28 +08:00
    prometheus 解君愁
    vZexc0m
        18
    vZexc0m  
       2019-06-17 13:56:01 +08:00 via Android   ❤️ 1
    阿里云云监控。免费版也能满足要求。
    hiplon
        19
    hiplon  
       2019-06-17 13:59:14 +08:00   ❤️ 1
    zabbix 就好了
    huson
        20
    huson  
       2019-06-17 15:46:00 +08:00
    你们运维工程师是纸糊的吧 监控报警都不做的吗
    turi
        21
    turi  
       2019-06-17 15:51:21 +08:00   ❤️ 1
    没脚本监控?
    我们的运维直接撸脚本,挂了发一封邮件,然后重启服务器。
    第二天我们来 gdb XXXXX 看原因。
    okwork
        22
    okwork  
       2019-06-17 16:03:29 +08:00
    首先要有异常提醒,其次要有宕机自动重启的机制,第三要用负载均衡的策略。这样基本就可以不用人肉等候了
    PHPJit
        23
    PHPJit  
       2019-06-17 16:05:57 +08:00
    zabbix +1
    akira
        24
    akira  
       2019-06-17 17:13:07 +08:00   ❤️ 1
    @Eugene1024 云服务一般都会有提供监控 /告警服务的。
    如果是托管主机,国内也有不少三方的云监控 /告警服务,直接用就是了.
    Shirakawa
        25
    Shirakawa  
       2019-06-17 17:25:54 +08:00   ❤️ 1
    python 写个脚本请求 http 状态码 然后联动钉钉机器人就好了
    cominghome
        26
    cominghome  
       2019-06-17 17:58:52 +08:00   ❤️ 1
    最优解: 用云的话,大部分有自带的,理论上你只需要配置一个告警规则就行。
    次解: 搭建一个 zabbix 把服务器监控上,应该花不了 1 天。
    Mazexal
        27
    Mazexal  
       2019-06-17 18:03:34 +08:00   ❤️ 1
    心跳包......不过必须要两台服务器以上才可以这么搞
    zqx
        28
    zqx  
       2019-06-17 21:16:26 +08:00 via Android   ❤️ 1
    一个服务,每隔半分钟就调目标机器的服务,超时就把机器信息回传给企业微信,企业微信推送到具体机器的应用的负责人
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2866 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 14:12 · PVG 22:12 · LAX 06:12 · JFK 09:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.