夏日炎炎,闷热北京,宁可不见窈窕淑女,也不愿出门晒肉干,不见天空云朵,因为不敢抬头看太阳。
在热雷雨的天气里,云计算行业出现了一则小插曲,腾讯云趟上事儿了,还是一件纵有委屈、有口难辩的事儿。
一位叫做“前沿数控”的用户发文控诉腾讯云, 用了一个很吓人的标题《腾讯云给一家创业公司带来的灾难》,以创业者之名谴责腾讯云赔偿金额太少,并索要千万元赔偿。
看双方沟通过程,私下应该已经勾兑许久,但最终还是因为赔偿金额的分歧闹到台面上。看腾讯云的官方表态,还是希望尽可能帮助用户解决问题。但在帖子中“创业者”、“灾难”、“数据丢失”这些个关键词的引导下,业界还是掀起一片讨论。
纵览事情来龙去脉,我发现这事儿不复杂,搞了十几年互联网,啥事都遇见过,也用过各大云计算厂商的云服务器,同时,我也是苦逼创业者。从旁观者角度,我说说自己的一些观点,希望对大家有所帮助。
## 三副本策略不等于快照,云计算做不到零误差
我细看了一下“前沿数控”的声讨文章、腾讯云的官方声明,发现这事儿真的不复杂:一块操作系统云盘出现低概率的硬盘固件版本 bug,造成一部分数据丢失,腾讯云的文件系统专家已经帮助恢复了大部分数据,但部分数据无法修复,“前沿数控”认为腾讯云有“ 99.999999%的数据可靠性的三副本存储策略,认为腾讯云应该负全责。
三副本存储策略,成为焦点,在一些技术社区也展开了技术大讨论,然而,并没有出现云计算同行挤兑腾讯云,这是为什么呢?因为三副本存储策略是云计算行业的通用技术方案,各大云计算厂商都是这个策略,但谁也不敢保证零故障的可能性。
事件中的“前沿数控”,把三副本理解成万无一失的快照备份了,没有做本地备份,基本上属于运维裸奔状态。但是,云计算行业做不到零误差,这是人类世界的极限挑战,只能无限接近完美,却永远无法做到物理世界的零误差,腾讯云做不到,阿里云也做不到,AWS 也做不到。
快照,快照,快照,重要的事儿说三遍,三副本策略不等于快照,三副本策略是云计算厂商的底层系统,是云计算厂商工程师才能操作的数据层,快照才是云服务器运维的必备工具。无论是腾讯云,还是阿里云,都会强调三副本策略不同于快照,三副本不能替代用户的备份工作。
## 云计算不是万能上帝,Google 也难逃 0.000001%
纵然云计算为各行各业带来了云计算的技术福利,也确实降低了企业的创业成本,但是,剩下的 0.000001%的不确定因素是腾讯云不敢保证的,阿里云、AWS、微软、谷歌之中也没有一个敢保证。
说说 Google 的事儿,他们的比利时数据中心曾遇到四次闪电袭击电力设施,导致磁盘受损、部分云存储系统断线、数据丢失。Google 工程师对受损磁盘进行了努力修复,仍有不到 0.05%的磁盘未得到修复,丢失的数据仍非常非常地小,永久被删除的数据只占了该数据中心的 0.000001%。
今一月份,麦田音乐网在发文,因阿里云服务器崩溃,磁盘分区表损坏,自己存放在阿里云上的数据全部丢失。今年的 6 月 27 日,由于运维误操作,阿里云曾经出现过一次重大技术故障,时间长达 30 分钟,陆续恢复用了近一个小时,引发剧烈的行业讨论和用户吐槽。
七月份,腾讯云北京三区出现少量故障,而“前沿数控”这家企业的一块操作系统云硬盘恰好在列,确实挺倒霉的。
虽然各大云服务商的传播口径中都有关于 XX 个 9 的可靠性介绍,但是,就像物理学中的误差一样,这个数字只能无限接近于 1,谁也不能保证故障可能性为 0。
## 运维裸奔是大忌,同情“前沿数控”
无论是硬件不可抗力的故障,还是黑客入侵、意外删除,都可能带来系统崩溃,这个事件是“前沿数控”的惨痛教训。运维裸奔是创业大忌,用好云计算厂商的运维工具是创业必修课,我自己在用腾讯云的云服务器、RDS 和快照,做好数据库安全和云服务器数据安全。
“前沿数控”的技术负责人似乎没有运维经验,应该提前做好源代码、数据、静态附件的备份,如果你用了 RDS,恢复生产会更容易一些。“前沿数控”的遭遇源自于一块系统盘不可抗力 bug,更加说明了系统盘快照、镜像的重要性。
对于中小创业者,只需要用云计算平台的快照、镜像、本地备份,即可确保数据的安全性。以腾讯云为例,系统盘、数据盘都可以进行快照备份,目前快照服务是免费的,直到 2018 年四季度才开始商业化,用好快照,则可以备份、恢复不求人了。
过去,我也犯过运维裸奔的错误,吃过不少亏,现在比较老实了,老老实实做好数据运维和安全运维,才能减少系统性风险。虚拟主机时代,是服务器管理员帮你在代运维;云计算时代,技术更先进,自由度更高,但运维却需要自己来做,云计算厂商只提供一些现代运维工具,事实上,运维反而变得更加重要了。
## 云计算不是一劳永逸,技术合伙人是创业必备
“前沿数控”的这个事儿,说明了两点:1、云计算不等于零运维,云计算只是基础设施,不能忽视技术运维的重要性;2、不懂技术的创业者,必须有一个合格的技术合伙人。
只要干了互联网这一行,只要有网站、数据在运行,我们是永远要和漏洞、bug、黑客、备份、恢复等一大串关键词打交道。项目做得越大,越需要牛逼的运维人员,越会发现技术合伙人的重要性,并非把项目传到云服务器上就万事大吉。
未来的一切互联都将跑在云计算平台上,此时,创业者的技术思维不能停留在虚拟主机 Hosting 时代,不能给拖拉机装飞机发动机。
建议“前沿数控”这家公司开除技术负责人,寻找更好的技术带头人,重新规划和设计自己的技术运维路线,为未来发展打下好基础。希望这家公司的投资人,多一些包容,帮助创业者寻找技术合伙人,不要再出现运维裸奔了。建议理性索要赔偿金额,合理评估各方责任,避免在不合理金额的无休止争论中浪费时间,用科学方法评估,致力于解决问题,而不是问责。
希望腾讯云能够派出一名运维专家,去给这家公司的技术部门、领导层讲讲课,普及一下基础运维知识。
建议腾讯云推出一些高清视频课程,为那些不太懂运维的用户群体,做一些形象直观的官方教程,帮助比较小白的用户进行自学成长。
via 微信公众号 小芳侠
1
qiyuey 2018-08-07 15:48:06 +08:00 2
本章已看完,感觉并没有任何实质性内容
|
3
pinews 2018-08-07 15:51:51 +08:00 1
弃用腾讯云不是更好的选择?
|
5
defunct9 2018-08-07 15:54:43 +08:00 3
运维不裸奔上什么云呢
|
6
zxdyb 2018-08-07 16:02:22 +08:00 3
“阿里云服务器崩溃,磁盘分区表损坏”,“由于运维误操作,阿里云曾经出现过一次重大技术故障”,
“七月份,腾讯云北京三区出现少量故障,而“前沿数控”这家企业的一块操作系统云硬盘恰好在列,确实挺倒霉的”, 这样的用词,感觉倾向性很强啊。 |
7
iwaifor 2018-08-07 16:07:26 +08:00
没啥内容啊,连个可参考的方法论的东西都没有
|
8
pinews 2018-08-07 16:08:28 +08:00
@zxdyb 我记得阿里云的确出了问题,但是数据最后恢复了,这家只是少量故障却无法恢复数据,除了用”倒霉”二字,还真不好用其他词形容,只是不知道是腾讯云倒霉,还是客户倒霉,谁倒谁的霉。
|
9
vimutt 2018-08-07 16:08:50 +08:00 via iPhone 1
快照如果坏了呢 又说快照不等同于运维备份 所以最该背锅的还是运维 让运维赔 1000w 吧
|
11
zapper 2018-08-07 16:12:46 +08:00 3
公关文吧
|
12
yeze322 2018-08-07 16:13:34 +08:00
线上事故不需付出高额赔偿,股价大跌会让你付出应有代价。
换成 AWS 或 Azure,敢多出几次这种事,分分钟钟被看空 |
14
cherryas 2018-08-07 17:18:47 +08:00
虽然是洗白文,但是确实其他几家( aws、阿里云)都出过丢数据的事情,腾讯云的事情不是首例,也不会是最后一例
|
15
LucasLee92 2018-08-07 18:00:45 +08:00
就不知道,其他几家对数据丢失后是如何处理的
|
16
annielong 2018-08-07 18:05:07 +08:00
技术上 bug 概率一定存在,XX 个 9 依然不能保证数据的安全,所以数据备份很重要。腾讯云出故障,该赔偿就赔偿,不过不能把锅全甩给腾讯
|
17
bofei 2018-08-07 18:12:21 +08:00 1
倾向太明显了 没看的价值
|
18
night98 2018-08-07 22:14:05 +08:00
v2 某些人水平也是可以的,技术这种事情本身就做不到百分百无 Bug,三副本是动态数据安全,快照才是静态数据安全,上云不代表运维裸奔,只是减少服务器运维成本而已,不要想太多。
|
19
qiuqiuer 2018-08-07 23:29:32 +08:00 via Android 4
这篇文章绝对是疼讯写的,中心思想表示:”这都是用户的错,没我们什么事”,建议疼讯开除这名产品经理,因为没有忽悠到我。
|
20
jimmyczm 2018-08-08 10:14:01 +08:00
软文,腾讯的错一笔带过,公司的错放大来看
|
21
UGLW 2018-08-08 10:32:42 +08:00
看来我是个老实人。
|
22
kangkang 2018-08-08 10:58:54 +08:00 1
腾讯还不明白吗?在明知有错的情况下,越是花钱洗地越是加深用户的不安全感。
云这种东西卖的就是安全感啊。 |
23
yanyuechuixue 2018-08-08 11:45:49 +08:00 via Android
这篇文章绝对是疼讯写的,中心思想表示:”这都是用户的错,没我们什么事”,建议疼讯开除这名产品经理,因为也没有忽悠到我。
|
24
lyhiving 2018-08-09 09:21:56 +08:00
腾讯云洗地之作。
云丢数据还叫什么云? |
25
Suzutan 2018-08-11 13:19:20 +08:00
这篇文章绝对是疼讯写的,中心思想表示:”这都是用户的错,没我们什么事”,建议疼讯开除这名产品经理,因为没有忽悠到我。
|