表现: 可能几天就一次,必须要重启,重启后查看日志,里面有 link down 的记录
1 、目前机器仍然在掉线状态,由于 pve 中其他虚拟机,除了 windows 外,都依赖于群晖的 smb ,所以群晖掉线后,其他服务基本都不可用了
2 、发现群晖掉线后,访问 pve 后台是正常的,但是过了几个小时,pve 后台也访问不了了,暂时没有头绪。pve 本身不依赖群晖。ssh 可以访问,管理端访问不了了。
3 、目前 windows 还是正常的状态,由于这次掉线刚好群晖在扩容,所以还没敢重启,黑盒等待中(无法得知扩容状态,但是掉线之前看到预计 1 天多一点,所以昨天中午掉线后,就没重启,准备今天晚上重启下。)
猜测: 是网络掉线了,原因未知。
之前也有好几次掉线,所以应该不是因为扩容导致的问题。
pve 中的其他虚拟机( windows+ubuntu+ct 容器*2 )都是正常的,没有掉线问题,排除硬件网口的问题
应该是 pve 主机和群晖的某些配置兼容性,或者是群晖本身的问题。
目前是 44t+14t 组的群晖的 shr1 ,容量=44t ,剩余空间是 700G ,前段时间出现问题的时候,怀疑是容量过低导致的,所以清理出来了一些空间,目前是 700G 。应该可以排除容量问题。
网卡选的是 E1000 ,应该不是兼容性问题?这个不确定。
今天早上发现,群晖又掉线了,同时pve的管理端和ssh都连不上了,直接重启。 重启后查看系统日志,发现昨天晚上8点开始报错连不上群晖的smb了(2.11是群晖的地址)
然后查了下发现,直接从管理页面删除挂载的smb盘不会直接取消挂载,要命令摘掉,然后执行了umount。
不过从日志看,源头并不是PVE导致的,反而可能是群晖掉线引起的pve访问smb超时,导致了pve的崩溃,下面是pve的后续日志,好像是0点开始自动备份dpkg-db-backup.service,然后就开始出问题了
然后日志就停了,直到我重启,好像是日志服务崩溃了。什么原因没看懂。群晖为什么掉线也不清楚。。。,不过大概知道,群晖是先出的问题,而且掉线后pve过段时间也会掉线,到底是因果关系,还是一个问题先后导致的两个系统出的问题,不清楚。 目前怀疑的点有三个: 1、pve之前从7.x更新到了8.1.3,可能是系统升级导致的 2、有个老哥提示说可能是sata扩展卡过热导致的问题,感觉也有可能,我的nas没有在主板仓装风扇,里面只有一个cpu的风扇。而且硬盘一直在高负载读写(pt刷流) 3、网卡的配置问题。 看到有人遇到pve虚拟机频繁掉线,不过我是不定期 解决方案: ethtool -K <接口> tx off rx off 目前还是重点怀疑2。 不过根据操作难度我决定以3->2->1 的顺序排查。
在tg群友的帮助下破案了(万分感激): 是nfs读写性能问题,qb查看统计信息,看到io队列拍了500+。 背景: pve宿主机: 1、黑群晖:只提供存储服务,对外提供smb和nfs服务。 2、docker(lxc容器):部署docker,然后用nfs挂载群晖的共享盘到lxc容器,然后映射给qb 3、windows虚拟机...
所以问题就出现在qb下载的时候,nfs性能不够,导致io拥挤,然后可能进一步导致了群晖掉线了。 更深一步的原因,或者说nfs负载如何导致群晖掉线的因果关系暂时没有探索(个人linux小白,简单查了下没找到原因)。
解决:
把qb挪到群晖中的docker里面,避免通过nfs进行下载和上传。emby等服务仍然留在lxc中。
PS:为什么用nfs而不是smb?最开始用的是smb,但是docker中的emby和jellyfin会无法播放刚入库的资源,过段时间才可以访问,开始怀疑是不是缓存之类的配置项导致的,然后尝试修改了一些参数,也没有解决,就换成nfs了,确实解决了这个问题。没想到后续出现了新的问题。
1
cookLv OP 好像不能编辑了,上面的星号被转义了,容量是 4*4T+14T
|
2
zhouhuade 119 天前
看下 pve 的日志呀,
感觉你应该有用 sata 扩展卡,看看扩展卡是不是有问题 |
3
cookLv OP @zhouhuade 是的大佬,确实用了 sata 扩展卡,主板只有 6 个 sata 口,所以买了一个 4 口的扩展,怎么知道是不是扩展卡的问题呢?日志我等下回家找找怎么看。
|
4
cookLv OP |
5
cookLv OP 补充信息:pve 主机 ssh 也无法登录了,但是还可以 ping 通,windows 虚拟机暂时没问题
ps:为什么帖子不能追加内容了呢,也不能修改。 |
6
JensenQian 119 天前
我之前也是 pve 装的黑裙,也是经常掉线
我后面直接物理机装了 unraid ,现在一年多了都没怎么掉过线 |
7
bytesfold 119 天前 via iPhone
PVE 主机网卡的问题好像,需要关闭网卡的硬件加速啥的,改成 cpu 解码;
不对在改回来 |
8
phenixc 119 天前
pve 的直通设备出现问题就会有这现象,没有找到好的解决办法
|
9
laminux29 119 天前
经常掉线要注意一下温度与电源。
1.大家应该都知道水冷,可是几乎没人告诉你:主板、存储介质、网卡、光模块这类都需要控温的。 曾经有一块主板不定期蓝屏,搞了个 12cm 风扇对着主板吹,就好了。而且主板温度很难监控到。 2.换个电源试试。以前我在京东自营,买了某品牌电源,买了几个,都没撑过 2 年。京东给我换,我不要。直接去拼多多买了爆火的尘雨电源。 3.内存条跑个 Memtest86+,至少 1 个 pass 4.重装 + 双烤 30 分钟试试。 |
10
cookLv OP @JensenQian 哎,搭建了好多服务,不到最后一步不想重新折腾了
@bytesfold 谢谢回复,这个之前好像看到过文章,改动过后面还没观测,物理网口掉线了,排查过程中改回去了,我今天重启恢复了再试试看。 @phenixc 难受了 @laminux29 感谢回复,不过由于其他的虚拟机都没什么问题,暂时不往硬件排查,而且温度其实挺正常的,我有经常看 |
11
X2031 118 天前
PVE 黑裙 稳定运行 300 多天了 啥问题没有
|
12
shouh 118 天前
我这边 PVE 虚拟机上面的群晖老是不定时重启,一直找不到原因,请大佬指导下
系统 System booted up from an improper shutdown System started to boot up. |
14
yanlaury 118 天前
https://kiritow.com/proxmox-eth-fix/
试试这个吧,我之前 pve 失联用这个解决的 |
16
qpwo005451mark2 118 天前
t/944268
我之前遇到这个表现和你这个有点像,当时我是把 PVE 宿主系统做了 ZFS raid 1 ,推测是硬件与 ZFS 兼容性问题,文件系统使用 EXT4 之后就没有这个问题了,有键鼠显示器的话接上 PVE 主机,终端里看下有没有什么异常,我当时就是 load 上百,卡 IO waiting ,PVE 的 pveproxy 遇到这种情况是第一个崩的,sshd 也时间久了也会崩 |
17
OliviaV 118 天前
我这也几百天在线了 用的是 virtio 版本是 7.4-17
|
18
zhouhuade 118 天前
我之前用了 sata 扩展卡,过热到一定程度就会导致失联
我建议优化散热,给扩展卡加散热片 我当时查到是扩展卡的问题是在 pve 的日志里看到很多 sata 扩展卡的 pci 设备报错 |
19
cookLv OP 更新:
今天又掉线了,不过查看群晖的日志发现在掉线之前,pve 大量访问群晖的共享盘,有个共享盘我挂到 pve 当备份存储了,之前系统盘容量不够用,不过目前扩容了,我摘掉再观测下看看。 |