RT 设置成每天重启也不行 因为有的时候撑不了一天 感觉宿主机系统死了 怎么排查 128G 内存也只吃了 30 几 G 资源充足的
1
shixuedela 2023-10-08 19:58:35 +08:00
首先排查是不是网络问题导致的 ssh 卡住,
然后查 log |
2
dode 2023-10-08 20:21:01 +08:00
做一个 webhook 重启 sshd 服务
|
3
idontnowhat2say 2023-10-08 20:28:51 +08:00
tty 先直接输入账号密码登陆下看看排除下到底是不是 sshd 进程的问题。
|
4
LindsayZhou 2023-10-08 23:04:03 +08:00
问这种问题很不好,没有足够信息别人只能盲猜。
我猜是 profile 里有东西卡住了。 如果是 bash 的话,试试 --noprofile --norc 参数吧。 ssh -t remote_host bash --noprofile --norc |
5
binbin0915jjpp OP @LindsayZhou 就是不知道怎么查 只是描述现象 感觉是 amd 机器的锅 不稳定?
|
6
julyclyde 2023-10-09 20:58:11 +08:00
首先,你提到“宿主机”那你是用了虚拟机吗?建议先描述清楚这层关系
|
7
binbin0915jjpp OP @LindsayZhou 无效
[root@f0ba92c6c19b /]# ssh -t 192.168.1.3 bash --noprofile --norc The authenticity of host '192.168.1.3 (192.168.1.3)' can't be established. ECDSA key fingerprint is SHA256:tFOfvXN7u9diTevMb9tapK3zT9MacXNVFTb875aud2E. ECDSA key fingerprint is MD5:ac:f3:78:2c:62:50:02:7e:a6:3d:c0:68:1d:c7:54:0a. Are you sure you want to continue connecting (yes/no)? yes Warning: Permanently added '192.168.1.3' (ECDSA) to the list of known hosts. [email protected]'s password: packet_write_wait: Connection to 192.168.1.3 port 22: Broken pipe |
8
binbin0915jjpp OP @julyclyde 就是一台 Centos7 服务器(叫他宿主机) 上面跑了很多容器
|
9
binbin0915jjpp OP 容器运行都没问题 但是主机自己的 ssh crond 服务器都死了
|
10
julyclyde 2023-10-10 13:52:44 +08:00
@binbin0915jjpp 主机自己的 ssh 、crond 都死了啊,那你有没有对它进行性能监控呢
看看出问题瞬间有什么指标飙升的情况吗?比如进程数、内存用量、swap 速率、tcp 连接数、打开文件总数之类的 |
11
binbin0915jjpp OP @julyclyde 没有 关键到机房直接操作 也不行 ssh 死的 本地也连不上..
|
12
spediacn 2023-10-10 18:36:58 +08:00 via iPhone
128G 应该是物理机吧
建议按楼上这位哥的来,看看进程数、内存使用、swap 速率、tcp 连接数、文件句柄数,如果因为死掉没法看的话,旁路接一个交换机的端口镜像,持续抓包看是不是有异常连接数大户吃光了 再者,我也遇到过几次莫名其妙死了的情况,盲目扩句柄数、会话数、缓存这些参数可能改完是正常的,但遇到一些极端环境(比如某些进程占用过大)才能发现问题。我觉得多数都是 sysctl 里头的参数配置导致问题,如果你修改过 sysctl ,将修改内容注释掉跑几天试试。 如果直连互联网没做防护的话,大概率被打。 |
13
julyclyde 2023-10-11 14:26:58 +08:00
@binbin0915jjpp 插键盘也登录不上嘛?是卡在输入密码之前还是输入密码之后?
|
14
binbin0915jjpp OP @julyclyde 输入之后
|
15
binbin0915jjpp OP 怀疑是这 2 个参数 之前改的过于夸张大
ClientAliveInterval 60 ClientAliveCountMax 1500 改回来了 暂时还没死 |
16
julyclyde 2023-10-11 14:42:04 +08:00
@binbin0915jjpp
本地登录,“login 冒号”是 getty 程序提供的 你输入用户名之后它 exec 了 login 命令,由 login 命令提问“password 冒号”,并进行验证 然后 exec shell 按说这一系列都不会额外多出进程数来,打开文件数会增加,所以猜测应该不是这两项满了导致的 往内存量方面考虑一下试试? |
17
binbin0915jjpp OP @julyclyde 128G 内存 自用了 30 不到 top 里也基本正常
|