V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
Wdafff
V2EX  ›  问与答

请问各位大佬, Linux 在空闲时期时不时死机该怎么排查?

  •  
  •   Wdafff · Feb 21, 2023 · 2841 views
    This topic created in 1165 days ago, the information mentioned may be changed or developed.

    1.服务器运行快一年了,最近一个月内,空闲时 CPU 突然飙升,然后死机。

    2.添加了 crash log ,死机重启后并没有日志。

    3.系统是 CentOS Linux 7 ,Kernel: Linux 3.10.0-1160.71.1.el7.x86_64 。

    4.服务器是一台 CDH6.3.2 数据节点,配置 24C128G 。

    Supplement 1  ·  Feb 21, 2023
    现在加了每分钟记录 top ,等下次死机出现看看。。。
    19 replies    2023-02-21 14:27:03 +08:00
    msclelo
        1
    msclelo  
       Feb 21, 2023 via iPhone
    1. 开启 coredump ,必要时 gdb 分析日志,对技术要求高一点
    2. 检查下系统日志,看能不能找到些蛛丝马迹
    3. 通过脚本获取 cpu 、内存占用信息,排查下是不是哪个进程导致(这种不一定有效,特别是突发情况,很难捕捉和定位到具体根因)
    4. 重装大法
    wuruxu
        2
    wuruxu  
       Feb 21, 2023
    整个监控脚本,CPU 飙升时,运行 top 看看是那个软件搞事情,然后对症下药
    Wdafff
        3
    Wdafff  
    OP
       Feb 21, 2023
    @msclelo #1 2 、3 都排查过了,看不出问题,现在试试开启 coredump ,实在不行再重装了
    pupboss
        4
    pupboss  
       Feb 21, 2023
    CPU 飙升有时候是磁盘 IO 等待导致的,你这个情况可以重点排查磁盘
    Wdafff
        5
    Wdafff  
    OP
       Feb 21, 2023
    @wuruxu #2 CPU 开始上升时就已经死机了,所有的监控都断了,脚本还会运行吗
    tlxxzj
        6
    tlxxzj  
       Feb 21, 2023
    对网络流量监控看看,可能是被挖矿了
    Wdafff
        7
    Wdafff  
    OP
       Feb 21, 2023
    @pupboss #4 空闲时也有可能死机,看历史监控磁盘 IO 并不高,单独压测服务器又没有问题
    neoacj1
        8
    neoacj1  
       Feb 21, 2023
    找块新硬盘 dd 过去,排除硬盘问题
    Wdafff
        9
    Wdafff  
    OP
       Feb 21, 2023
    @tlxxzj #6 内网服务器也不安装其他软件,应该不会吧,流量看着和其他正常服务器差别不大
    duzhor
        10
    duzhor  
       Feb 21, 2023
    你都说是 hadoop 节点了。cpu 、内存、磁盘,不外乎这几个导致的,大部分情况可能是内存频繁 OOM 、磁盘读写过高而引起,写个脚本记录 top10 进程,总能找到蛛丝马迹
    Eytoyes
        11
    Eytoyes  
       Feb 21, 2023   ❤️ 1
    物理服务器可以跑硬件诊断看看,排除硬件问题

    遇到过一个问题和你类似,也是不定期卡死,高负载、低负载都会死,后来跑诊断到 cpu 直接卡死,400 来换了个 CPU 之后故障消失
    Wdafff
        12
    Wdafff  
    OP
       Feb 21, 2023
    @Eytoyes #11 就是跑一遍压测吗
    fengfisher3
        13
    fengfisher3  
       Feb 21, 2023
    如果进程占用系统层面的问题都排查了。那就可能是操作系统(重装系统)或硬件的问题大概率是磁盘。Eytoyes 说得对。
    fengfisher3
        14
    fengfisher3  
       Feb 21, 2023
    不过,如果你是最近一个月才出现的问题,按理不应该是系统和硬件的呢。出问题前有没有做过什么调整,包括搬动位置,或者是修改过什么配置等,先从有变动的地方去定位问题。
    Wdafff
        15
    Wdafff  
    OP
       Feb 21, 2023
    @fengfisher3 #14 硬件、系统没有改动,唯一改动的就是任务代码,但是代码有问题也不应该就影响一台服务器
    Eytoyes
        16
    Eytoyes  
       Feb 21, 2023
    @Wdafff #12 服务器 boot 时选择 Hardware Diagnostics 功能,全面检测耗时较长,建议在允许服务器长时间下线的情况下再去操作
    bitdepth
        17
    bitdepth  
       Feb 21, 2023
    如果是 hardware 問題,你這個 server 沒有 BMC 嗎?
    LXGMAX
        18
    LXGMAX  
       Feb 21, 2023
    遇到过硬盘坏块导致系统动不了的,可以扫磁盘看看
    la2la
        19
    la2la  
       Feb 21, 2023
    CDH 数据节点,直接下线重做系统
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1485 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 47ms · UTC 16:22 · PVG 00:22 · LAX 09:22 · JFK 12:22
    ♥ Do have faith in what you're doing.