理性讨论,如果有 5 万台服务器,虚拟机和物理机都行,一个人能管好吗?如果一个人管不好,那怎么管?
有没有大佬有这么多台服务器的管理经验?也希望能够分享一下经验,改进大家的运维效率。
1
salmon5 2021-09-24 14:21:07 +08:00 3
什么?阿里云只有 1 个员工?集团一下子节约几百亿
|
2
salmon5 2021-09-24 14:21:40 +08:00 41
别整天看公众号瞎鸡巴吹牛逼
|
3
zhengxiaowai 2021-09-24 14:23:16 +08:00
虚拟机有平台还行,物理机肯定不行
|
4
x86 2021-09-24 14:25:08 +08:00
1 个人 5 万台?我要知道怎么管我会告诉你?
|
5
salmon5 2021-09-24 14:25:34 +08:00 1
保安大爷 1 个人可以管,开门关门就行了
|
6
lostberryzz 2021-09-24 14:25:45 +08:00 69
你的头像,出卖了你
|
7
echo1937 2021-09-24 14:26:43 +08:00
你一个人能管 5 万台,我来帮你接 IDC 运维的外包,我们都发财。
每天能管好硬盘失效一项,都有方方面面的事情要考虑。 |
8
dante6733 OP 理性讨论,不一个人也行,主要是想看大佬团队管理几万台服务器的经验
|
10
dante6733 OP 大家不要纠结一个人了,只是想知道数万台服务器怎么管,大佬分享一下经验!
|
11
duqich 2021-09-24 14:29:40 +08:00
5w 台太少了 格局小了
|
12
salmon5 2021-09-24 14:31:12 +08:00
|
13
salmon5 2021-09-24 14:32:12 +08:00
您说的应该是物理机,国内可以找一些例子
|
14
henvm 2021-09-24 14:33:22 +08:00
一个人难
|
16
dante6733 OP 蹲大佬,分享数万台服务器管理的经验,不用一个人~
|
18
masterclock 2021-09-24 14:36:09 +08:00 5
我帮你贴了??
睿象云隶属于四川睿象科技有限公司,是一家全球领先的智能运维平台厂商,创始团队始终秉承 “让开发运维工作变得更加高效” 的使命,专注于为企业提供更加智能、全面的跨云监控和事件管理平台。 睿象云团队致力于运用便捷的集成方式,精准的智能算法,及完善的分派响应机制,为企业搭建灵活、统一的运维管理平台,实现云环境下所有 IT 指标和事件信息的汇聚、处理、分派以及智能分析。从而帮助业务运维团队更加快速的掌握业务健康状况,甄别运维问题,判定故障根因,建立知识图谱,最终全面提升企业的 IT 运维能力,降低运营成本和风险,创造更加优质的用户体验。 |
20
cominghome 2021-09-24 14:37:12 +08:00
应用容器的话应该还行, 物理机当我没说
|
21
salmon5 2021-09-24 14:38:39 +08:00
另外:“5 万台服务器”的公司,那 IT 服务器存储带宽支出,真不会买运维平台(零头),早自己团体开发了。
|
22
dolphintwo 2021-09-24 14:41:28 +08:00 2
只有资本家才会问这个问题
|
24
lasuar 2021-09-24 14:41:46 +08:00
这类大佬没时间来这分享
|
25
dante6733 OP @dolphintwo 格局大了
|
26
bing0 2021-09-24 14:44:58 +08:00
一个人管理过 50 台物理机路过,从 1850 到 R740XD,就问你,一个人扛 40*3.5 寸硬盘的盘阵下架你怎么做??
|
27
myd 2021-09-24 14:45:14 +08:00
开玩笑。
5 万台服务器,意味着上面有各种系统。光是部署环境、配置环境账号啥的就够忙活了。除非像云服务器一样,装好系统交给开发,其余撒手不管! 一个运维,出了问题,处理的来? |
28
Mac 2021-09-24 14:46:55 +08:00 2
不舍得在 V2 上花钱做广告的我是不会相信的
|
29
salmon5 2021-09-24 14:48:42 +08:00
傻狍子领导才会干这事,
明明可以团队带 100 多人,这下好,只有 1 个光杆司令了,任人蹂躏。 这事儿要从管理上来分析,技术上分析没啥意思,自动化运维容器技术资料到处都是 |
31
salmon5 2021-09-24 14:52:03 +08:00
“5 万台服务器”的 leader 级别比总监高了,部门总经理了;
这下好,被你们真么一折腾,就 1 个人了,你说你这项目可能中标吗?睿象云 |
32
xiaofeifei8 2021-09-24 14:59:40 +08:00
@dante6733 想用你们的平台一个人管理 5 万台,你给个方案吧
|
33
Remode 2021-09-24 15:02:06 +08:00
5w 物理机?什么神仙。。。
|
34
harde 2021-09-24 15:04:10 +08:00 1
本来就是过来打广告的,大家还认真了,散了吧
|
35
ScotGu 2021-09-24 15:07:15 +08:00
一个人员 1 台服务器都运维不了!
运维可是要 7*24*365 oncall 的,生产队的驴也不敢这么造啊! |
36
huangmingyou 2021-09-24 15:07:57 +08:00
一看就是广告
|
38
yamedie 2021-09-24 15:11:01 +08:00
广告钓鱼
|
39
SingeeKing 2021-09-24 15:13:44 +08:00 1
怎么管理?当然是选择睿象云 AIOps [V2EX Plus 的狗头什么时候能回来]
|
40
salmon5 2021-09-24 15:14:12 +08:00
确实是广告,如果不是广告,这种言论非蠢即坏,坑人不浅。
|
42
salmon5 2021-09-24 15:16:34 +08:00
老板这么推理:你看别人 1 人 5 万台服务器,你 500 台,工资÷100 吧;所以我说这个言论非蠢既坏,坑人不浅。
|
43
hkz670 2021-09-24 15:17:25 +08:00 1
管理万台服务器,我推荐睿象云。(一条 5 毛)
|
44
lakehylia 2021-09-24 15:19:47 +08:00
花点钱打广告啊
|
45
xsm1890 2021-09-24 15:29:14 +08:00 1
老板对 HR 说:看别人一个人管理 5 万台服务器,运维部门的留一个工资最低的,其他人开了吧。
|
47
masterclock 2021-09-24 15:38:14 +08:00 1
目前 google “一个人 运维 服务器 数量”, 第一还是 某乎 的 4 万:行云管家。
大家加油,争取超越 某乎,让 V2EX 5 万:睿象云 到第一。 |
48
905928762 2021-09-24 15:39:02 +08:00 via iPhone
一个运维,99 个临时工
|
49
yunyuyuan 2021-09-24 15:42:21 +08:00
一个人可以月赚 5W 吗?怎么赚?:doge:
|
50
sdushn 2021-09-24 15:43:10 +08:00
别的不说,7*24 值班,一个人扛得住?
|
51
sadfQED2 2021-09-24 15:43:39 +08:00 via Android
你给我 500 万月薪,别说 5 万台了,10 万台我都有办法。大不了多找点外包呗
|
52
eason1874 2021-09-24 15:48:28 +08:00
一个人,五万台,光是日常巡检都不够时间,能不能少做点梦?
|
53
yin1999 2021-09-24 15:50:21 +08:00
|
54
tutustream 2021-09-24 15:56:01 +08:00
合理怀疑这个睿象云拖欠了 LZ 工资 狗头
|
55
littlewing 2021-09-24 16:00:34 +08:00
一个人管,20 个人开发自动化运维系统
|
56
Pipecraft 2021-09-24 16:03:10 +08:00
你找一个搞 AI 的大佬,请他开发一个能管理 5 万台服务器智能系统。系统有了,管理 5 万台都不是事儿。
这样你俩的 KPI 都打成了,平时你俩闲聊,旁边他的系统管理你的机器,多么悠哉。 |
57
CodeCodeStudy 2021-09-24 16:06:50 +08:00
一个人管 5 万台,那肯定是自动化管理啊,既然能管 5 万台,50 万、500 万、5000 万、5 亿自然不在话下,到时候所有的运维人员都不用上班了,既然都这么智能了,想必 AI 也能编写代码了吧,程序员也可以不用要了。
|
58
JamChiu 2021-09-24 16:08:10 +08:00
我要是知道,我还会上来 V 站摸鱼么?
|
59
0ZXYDDu796nVCFxq 2021-09-24 16:18:24 +08:00
5 万台,假如均价 5 万一台,总价 25 亿
楼主你愿意把 25 亿生产资料给一个人管理并让这些生产资料顺畅运作吗? |
60
0ZXYDDu796nVCFxq 2021-09-24 16:21:49 +08:00 1
你们这些人啊,搞事情也不看下实际情况,想装逼但其实显得你很 low,没见过世面
记得在知乎看过一个问题:如何实现千万并发登录 瞎 JB 扯蛋,地球上有千万并发的登录系统吗 |
61
ch2 2021-09-24 16:24:27 +08:00
外包给阿里云管
|
62
ltruntu 2021-09-24 16:30:06 +08:00
打广告 都有这么多人在那边杠 服了
|
63
Microseft 2021-09-24 16:51:16 +08:00
1 个运维能管理好物理 500 台设备我就觉得已经很了不起了
而且这 500 台基本都是同类型,不然光想想各类硬件巡检故障处理就够头大 500 台也基本意味着,平均每天都会有一个硬件故障(警告或严重级别) |
64
fxxkgw 2021-09-24 16:55:02 +08:00
我们这物理机+虚机+容器大概 20W+ 运维部大概 200 人+ 工作内容包括机器管理、运维平台开发、数据库、R2M/日志、服务治理、CICD 等。。
|
66
atpking 2021-09-24 16:58:56 +08:00
快请坐到主席台来
|
67
halk 2021-09-24 17:09:22 +08:00
看你怎么定义 管理 这两个字
|
68
twl007 2021-09-24 17:13:56 +08:00
看你怎么定义管理了 是一个人管机器的环境部署配置还是连机器上架下架 网络配置 硬件故障排查都要管……
|
69
JensenQian 2021-09-24 17:14:10 +08:00 2
你去问下做 steam 的 V 社,他们只有 3 个员工,一个 G 胖负责数钱,一个冰蛙负责更新 dota2,一个散播半条命有 3 的,怎么服务几千万的 steam 用户的
|
70
EchoUtopia 2021-09-24 17:18:31 +08:00 1
如果不开机应该很好管
|
71
kangkang 2021-09-24 17:41:17 +08:00 3
一个运维可以管理 5 万台服务器,你们是不是都一筹莫展?现在 let me present 睿象智能运维管理平台,不宕机者,运维的救世主,带五奥破死先驱,七云统治者暨全境守护者,运维行业毁灭者,AIOps 之母。
|
72
AllenHua 2021-09-24 17:42:24 +08:00
如果不出问题应该很好管,可以嗑瓜子看屏幕监控服务器运行状况。有一两台机器出了问题,怎么管得过来?有时候一个问题需要好几天才能找到解决办法,累积的任务不做了?
|
73
tqyq88 2021-09-24 17:48:36 +08:00
ssh root@host rm -fr / 解君愁
|
74
WispZhan 2021-09-24 17:52:28 +08:00
@JensenQian 不是一个 G 胖数钱,一个客服,一个更新 Steam 客户端吗?
|
75
JensenQian 2021-09-24 17:54:57 +08:00
@WispZhan #74 不管怎么样,都是 G 胖数钱就对了
|
76
muzuiget 2021-09-24 17:55:24 +08:00
建议钓鱼时先换个头像。
|
77
JensenQian 2021-09-24 17:55:25 +08:00
@JensenQian #75 剩下两个得干活
|
78
Junzhou 2021-09-24 17:59:43 +08:00
有五万台物理服务器需要管理的技术公司,会选你们作为技术解决方案,搞笑呢。
|
79
snownarrow 2021-09-24 18:02:58 +08:00
一般都是硬件和软件系统分开的,硬件人力不可计,软件和系统一般也不会一个人管理,也是的有个小团队,服务器除了磁盘,其他的应该都是很稳定的,也就是业务问题多需要多一些人处理
|
80
keepeye 2021-09-24 18:04:05 +08:00
5 万台 光每天处理告警就不用睡觉了吧
|
81
Junzhou 2021-09-24 18:07:56 +08:00 6
所以你们 5w 个客户,平均两个客户才拥有一台主机吗?话说你们客户人均 0.5 台机器还用得着自动化运维平台吗? https://i.loli.net/2021/09/24/eKuD2nwpEcsxmtQ.png
|
82
neilyoone 2021-09-24 18:14:16 +08:00
问这个问题的 绝不是 干运维的
|
83
TAFMT 2021-09-24 20:14:23 +08:00
阿里:月薪 100w,明天来报道
|
84
ajaxfunction 2021-09-24 21:12:48 +08:00
你要见过 5 万台物理机长啥样 就不会说这话了
恐怕你 1 台物理机都没见过,1 个人能把一台 2u 服务器 上到机架吗? |
85
aru 2021-09-24 21:43:56 +08:00
什么?阿里云只有 1 个员工?集团一下子节约几百亿
|
86
sickoo 2021-09-24 21:44:10 +08:00
华为:天才少年计划,明天报道
|
87
2i2Re2PLMaDnghL 2021-09-24 21:45:07 +08:00
@JensenQian G 胖:你说我公司有几个人?
|
88
fs418082760 2021-09-24 21:57:47 +08:00
如果一个人管不好,那怎么管?
招人啊,愚蠢的问题 |
89
JensenQian 2021-09-24 23:16:12 +08:00 via Android
@2i2Re2PLMaDnghL 比 2 多,比 4 小个人
|
90
sutra 2021-09-24 23:18:44 +08:00
好像可以估算一下每天需要更换的硬盘数量。
|
91
Microseft 2021-09-24 23:29:33 +08:00
|
92
pjntt 2021-09-24 23:48:00 +08:00
扯个蛋:一个公司运维+200 个外包。远程控制下工单给外包,然后等着完成。
|
93
steptodream 2021-09-25 07:05:33 +08:00
@ajaxfunction 这个的分人了 我也是运维 表示 2U 的很轻松的 撤服务器的时候不怕弄坏 1U 的我经常一手一个 锻炼的时候单手 25KG 哑铃弯举大概一组 12 个
|
94
Liang 2021-09-25 09:33:00 +08:00
「 1 个运维管理 5w 台服务器」和「 1 个运维管理 5 亿台服务器」没什么很大的区别了,全球服务器都外包给我管理吧!!!
|
95
k1z 2021-09-25 09:35:40 +08:00
来套方案的吧?
|
96
dextercai 2021-09-25 09:43:55 +08:00
打广告也不能这么打啊
|
97
lucybenz 2021-09-25 10:10:49 +08:00
把硬件做成带理财功能的路由器,卖给消费者,提供运维教程即可 50 万台都没问题
|
98
danhahaha 2021-09-25 11:29:16 +08:00
可以的,机房总电闸安装一个自动远程控制,运维 24 小时手机随时待命,出问题直接断电重启机房
|
99
piloots 2021-09-25 11:48:23 +08:00
这还不好管?只需要一个超级大的“闸”设置好来电自启,你说什么时候关机就什么时候关机,秒关,启动不归我管。
|
100
ragnaroks 2021-09-25 12:40:23 +08:00
理性分析,一天 86400 秒,50000 个机器,每台机只看一眼( 1 秒),这起步得 966,说不定还得加班
|