V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ajaxgoldfish
V2EX  ›  云修电脑

群晖/PVE/ Linux 系统死机如何最小代价的排查问题,每次运行五天后不定时死机。悬赏一包玉溪,采纳后我会 @,先在此谢过了。

  •  
  •   ajaxgoldfish · 45 天前 · 2105 次点击
    这是一个创建于 45 天前的主题,其中的信息可能已经有所发展或是发生改变。

    本来攒了个 nas 之后挺高兴的,没想到总是死机,每次死机周期还挺长,已经好几次持续数月了。

    死机现象

    • 硬盘灯不闪,但是亮
    • 路由器显示设备离线
    • 插屏幕和键鼠没用,没反应
    • 电源灯还亮

    硬件

    • 双 16g 内存,粤虎 ddr4 2666
    • cpu 8100t
    • 系统,尝试过 pve ,群晖,这两个均是一样的现象
    • 系统日志,和 dmesge 均没有有效日志,每次死机的日志都是不同的上下位。
    • 电源 150w 。
    • 硬盘 16t hc550

    尝试过的方法

    • 更新 bios 微码
    • 换系统,从 pve 换到物理机直接装群晖
    • 跑 memtest86 测试,均通过

    实在是没招儿了,求助各位专家,如果先换硬件的话先换什么呢

    29 条回复    2024-11-17 23:30:19 +08:00
    alfawei
        1
    alfawei  
       45 天前
    内存条换一个看看

    群晖不管黑白都非常非常稳定
    memorybox
        2
    memorybox  
       45 天前
    第一反应是内存; 两根内存留一根,挨个试试?
    Puteulanus
        3
    Puteulanus  
       45 天前
    蹲一个,我朋友那的 x86 软路由也是隔一段时间随机死,为了避免死机都设置成每天定时重启了,现在比较怀疑的是内存,其次是电源,因为工控机 CPU 取不下来(狗头)
    ajaxgoldfish
        4
    ajaxgoldfish  
    OP
       45 天前
    @memorybox 嗯嗯,目前准备拔一根试试
    ScotGu
        5
    ScotGu  
       45 天前
    早年间把 PCIE3.0*8 的万兆网卡 插到 PCIE3.0 X4 (物理槽是 X8 的),也挂过。
    happyn
        6
    happyn  
       45 天前
    如果是 PVE 的话,我碰上过网卡负载大的时候自动重启的问题,解决方法参考这里:

    https://forum.proxmox.com/threads/e1000-driver-hang.58284/page-8#post-390709
    zhixiao
        7
    zhixiao  
       45 天前
    我之前也有过会死机的情况,后来发现主板纽扣电池没电了,换了个就再也没出现了
    caltong
        8
    caltong  
       45 天前
    内存没问题的话就换主板吧,顺带买张诊断卡,到时候方便排查具体卡点。
    ningfan120
        9
    ningfan120  
       45 天前
    NAS 的话,还要考虑有没有那个应用持续吃内存,把内存爆掉了,然后就会死机了。
    null2error
        10
    null2error  
       45 天前
    这不请出日志大法?能稳定复现的问题一般不会太难查~
    OysterQAQ
        11
    OysterQAQ  
       45 天前
    内存没问题就直接换主板,排查代价很大,而且基本查不出
    frankilla
        12
    frankilla  
       45 天前
    我的 pve 每月更新一次系统,在此期间没有死过一次。感觉有没有可能是硬盘问题咧?
    lxh1983
        13
    lxh1983  
       45 天前 via iPhone
    我的 8505 装 PVE 或者 unraid 也会死机,后来关掉 C1 就好了
    zzNucker
        14
    zzNucker  
       45 天前
    基本主板或者 U 的问题
    ajaxgoldfish
        15
    ajaxgoldfish  
    OP
       45 天前
    @zzNucker 这么严重吗 =。=
    ajaxgoldfish
        16
    ajaxgoldfish  
    OP
       45 天前
    @null2error 不能稳定复现,每次运行五天以上才会死,五天以后就不定时的死机了
    yelc668
        17
    yelc668  
       45 天前
    感觉是内存条跟板不兼容 大概率是这样我猜的
    riazjack218
        18
    riazjack218  
       45 天前
    不定时死机的问题之前我也遇到过,每次隔一周左右就死机了,情况和楼主的描述也大差不差,不过我的系统是 esxi
    ```
    2024-09-21T09:16:15.508Z cpu2:2099372)[45m[33;1mVMware ESXi 6.7.0 [Releasebuild-15160138 x86_64][0m
    Machine Check Exception: Fatal MCE on PCPU2 in world 2099372:vmm2:linux-2?System has encountered a Hardware Error - Please contact the hardware vendor
    2024-09-21T09:16:15.508Z cpu2:2099372)cr0=0x80050033 cr2=0x7f3384751518 cr3=0x12e6ea000 cr4=0x152660
    2024-09-21T09:16:15.508Z cpu2:2099372)frame=0x451a0261bec0 ip=0x41801354745b err=18 rflags=0xffffffffffffffff
    2024-09-21T09:16:15.509Z cpu2:2099372)rax=0xffffffffffffffff rbx=0xffffffffffffffff rcx=0xffffffffffffffff
    2024-09-21T09:16:15.509Z cpu2:2099372)rdx=0xffffffffffffffff rbp=0x1 rsi=0xffffffffffffffff
    2024-09-21T09:16:15.509Z cpu2:2099372)rdi=0xffffffffffffffff r8=0xffffffffffffffff r9=0xffffffffffffffff
    2024-09-21T09:16:15.509Z cpu2:2099372)r10=0xffffffffffffffff r11=0xffffffffffffffff r12=0xffffffffffffffff
    2024-09-21T09:16:15.509Z cpu2:2099372)r13=0xffffffffffffffff r14=0xffffffffffffffff r15=0xffffffffffffffff
    2024-09-21T09:16:15.509Z cpu2:2099372)pcpu:0 world:2099368 name:"vmm0:ikuai (V)
    2024-09-21T09:16:15.509Z cpu2:2099372)pcpu:1 world:2099590 name:"vmm3:linux-1" (V)
    2024-09-21T09:16:15.509Z cpu2:2099372)pcpu:2 world:2099372 name:"vmm2:linux-2 (V)
    2024-09-21T09:16:15.509Z cpu2:2099372)pcpu:3 world:2099371 name:"vmm1:linux-3 (V)
    2024-09-21T09:16:15.509Z cpu2:2099372)@BlueScreen: Machine Check Exception: Fatal MCE on PCPU2 in world 2099372:vmm2:linux-2?System has encountered a Hardware Error - Please contact the hardware vendor
    2024-09-21T09:16:15.509Z cpu2:2099372)Code start: 0x418013400000 VMK uptime: 6:06:35:27.868
    ```
    后来排查发现是宿主机中 CPU 使用率过高,虚拟机无法正常获取资源导致的磁盘 io 延迟过高进而导致 esxi 的崩溃;楼主如果有空的话可尝试装个 esxi 观察几天,等出现紫屏的时候再看看详细的 debug
    tbc3211
        19
    tbc3211  
       45 天前
    没日志估计是供电问题,之前我拆开看电源线都烧黑了
    Y9qn1d
        20
    Y9qn1d  
       45 天前 via iPhone
    群辉死机重启后不应该有异常提示的吗?
    xiaomayi000
        21
    xiaomayi000  
       45 天前
    把双 16G 内存,换成先挨个用单条试下。
    weeka
        22
    weeka  
       45 天前
    供电问题?我之前 PVE 用的服务器拆机 1u 300w 电源,平时负载在 180w 左右,跑了 2 年没问题,但是突然有一天莫名其妙死机,后来就会断断续续死机,也是查不到日志,各种排除原因是 PVE 系统负载高就会死机,后来换了个全新电源就好了
    m1nm13
        23
    m1nm13  
       45 天前
    装个 windows 跑个 tm5 确认不是内存有问题.那基本上大概率是主板有问题
    m1nm13
        24
    m1nm13  
       45 天前
    @m1nm13 MTETEST86 和闹着玩一样的,约等于没用
    jhytxy
        25
    jhytxy  
       45 天前 via iPhone
    这个真不好查


    我也碰到过
    以为是买的杂牌 ssd 问题

    结果换来换去还是那样

    后来上了个稳压电源再没出现过
    breakplus
        26
    breakplus  
       45 天前
    有可能是内存占满了
    likai
        27
    likai  
       45 天前
    负载过高或温度太高.系统假死了
    caola
        28
    caola  
       44 天前
    碰到过电压不稳定造成的类似问题,后来直接弄个 UPS 做为前置电源,起到稳压的同时还能在断电后发送关机指令,防止突然断电对硬盘和数据的损坏
    busterian
        29
    busterian  
       43 天前 via Android
    我的 pve 之迁移到新固态硬盘,迁移后和你描述的情况差不多,明明这两个固态性能差距没那么大,但是实际使用起来迁移后卡的要死,甚至带蹦 pve, 然后排查原因是 linux 虚拟机迁移后不知什么原因导致 mysql worker 疯狂占用 cpu 资源导致的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1111 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 18:30 · PVG 02:30 · LAX 10:30 · JFK 13:30
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.