感觉很实诚,没用网络割接抖动之类的借口。
顺便问下监控技术哪家强。
有人吐槽从 google photos 开始不再无限存照片,就知道它磁盘资源吃紧了!
简单的事故报告出来了 https://status.cloud.google.com/incident/zall/20013
的确不是磁盘满了,感谢 @reus 老哥提醒。
1
salmon5 2020-12-15 09:43:13 +08:00 1
丢人的 Google
|
2
silvernoo 2020-12-15 09:44:07 +08:00
哈哈不丢人
|
3
lvzhiqiang 2020-12-15 09:44:17 +08:00 1
实诚!
|
4
andrewpsy 2020-12-15 09:44:40 +08:00 via Android
图显不出来,不是用的谷歌图库吧?
|
5
wgbx 2020-12-15 09:47:11 +08:00
丢人在哪里?
|
6
Tink 2020-12-15 09:48:13 +08:00
不容易
|
8
felixcode 2020-12-15 09:51:25 +08:00
不丢人,技术还是全球首屈一指的。
|
9
gtchan13579 2020-12-15 09:51:29 +08:00
怪不得昨天我的谷歌账号登不上了,今天又突然好了。
|
10
43529 2020-12-15 09:53:33 +08:00
磁盘满了.....满了....
|
12
MeteorCat 2020-12-15 09:55:07 +08:00 via Android
这理由清新脱俗,导致不知道从哪里开始吐槽
|
13
fyovo 2020-12-15 09:57:02 +08:00
磁盘满了害行...
|
14
deorth 2020-12-15 10:00:54 +08:00
昨天油管帐号登不上,都不知道该看啥
|
15
matrix67 OP |
16
matrix67 OP 命名 => 明明
|
17
luob 2020-12-15 10:04:17 +08:00 via iPhone 19
隔壁 p 站这几天删了 70%的内容,正好可以找他们借几车硬盘……
|
18
dxfree 2020-12-15 10:04:45 +08:00
看来运维都差不多……
|
19
Kupanda82 2020-12-15 10:06:55 +08:00
45min sla 今年 kpi 不达标了
|
20
saytesnake 2020-12-15 10:10:13 +08:00
k8s 的监控做得不好吧...
|
22
thjwuliubu 2020-12-15 10:16:02 +08:00
所以 薅羊毛别太狠了 最后的结果就是大家都没得玩
|
23
opengps 2020-12-15 10:21:17 +08:00 58
45min/(365*24*60)=0.0000856164,也就是说可用性 99.99143836%
谷歌级别的服务,可用性才有 4 个 9,各位提需求的老哥们,你们参考下,别动不动要求 7 个 9 |
24
wpblank 2020-12-15 10:23:47 +08:00
上上周我们这边也是一个提供服务器+数据库的服务商磁盘满了,他们提供的数据库应该是共用磁盘,最后当天服务好几家公司宕了半天
|
25
goodryb 2020-12-15 10:27:12 +08:00 22
思路清奇,挂了就是挂了,什么原因对用户来说重要么,还要贴个诚实的标签
|
26
love 2020-12-15 10:27:24 +08:00
原来 Google 也不监控磁盘空间的
|
27
marcong95 2020-12-15 10:28:15 +08:00
昨天刚好在那个时间点想看一下 notion 上的东西,然而登录信息过期了,用的 Google 第三方登录,就连带 notion 也登不上了。。。看来第三方登录也不太靠谱,起码要留一个密码备用。。。
|
28
arthas2234 2020-12-15 10:30:46 +08:00
事实证明,不要把鸡蛋放在一个篮子里
|
29
whileFalse 2020-12-15 10:30:56 +08:00
@luob #17 怎么就删内容了呢?
|
30
Braisdom 2020-12-15 10:34:08 +08:00
作为程序员看了这样的问题,是不是觉得内心平衡了一点呀。
|
31
NewIPIsComing 2020-12-15 10:34:59 +08:00 1
誠實,作為核心價值觀之外的一種美德,當然值的表揚
|
32
RudyS 2020-12-15 10:40:12 +08:00
这个理由根本就是瞎几把扯
就算是是一个没有运维的小公司,也很少会因为磁盘满导致服务挂掉的;更何况 google ! |
33
stoneabc 2020-12-15 10:41:04 +08:00
1. 短时间内某些程序突然大量写盘把磁盘占满了,监控来不及告警
2. 监控很早就告警了,SRE 当做没看到 3. SRE 看到了,通知机房运维上新磁盘,但由于疫情 机房运维人手不足没来得及上… 哪种可能性比较大。。 |
34
cnkuner 2020-12-15 10:43:10 +08:00 via Android 11
不一定是实诚,可能是用硬盘满了来掩盖更大的问题。
|
35
ddefewfewf 2020-12-15 10:43:40 +08:00
@whileFalse 收款方式凉了
|
36
hq136234303 2020-12-15 10:46:59 +08:00
@luob 为啥?
|
37
qiaobeier 2020-12-15 10:50:55 +08:00
昨晚吓死我了,我那个 gmail 绑定了一大堆服务。。。这 gmail 好像没怎么靠谱啊。但是也许我应该自己买个域名,这样就算邮件服务器挂了也可以换一个。不至于那么被动。
|
38
tikazyq 2020-12-15 10:51:23 +08:00
如果没遭遇过 磁盘 /CPU/内存 /带宽满了、上线翻车、数据库损坏、 版本冲突、网络故障,人生都不完整。
看看人家赛博朋克 2077,bug 都多出天际了,照样不影响它的受欢迎程度 |
39
whyso 2020-12-15 10:56:41 +08:00
刚清过线上磁盘,已经百分之 80 多了。。。
|
40
liangch 2020-12-15 11:03:47 +08:00 2
丢人的前提是,有其它家做得更好。问题是,有么?没有,就不丢人。
|
42
weyou 2020-12-15 11:06:57 +08:00 via Android
找这个理由是为以后的收费做铺垫吧
|
43
Illusionary 2020-12-15 11:07:21 +08:00
不是因为总所周知的原因?
|
44
phpcxy 2020-12-15 11:10:58 +08:00 1
|
45
NerverLibis 2020-12-15 11:13:18 +08:00 11
来个中国式的理由吧:
谷歌官方表示,导致故障发生的人员为无正式编制的临时工。 对 AA BB CC DD EE FF 等 6 名实习生 /临时工 /外包员工-予以解聘。 故障发生时时,从监控视频中可看到,有一位牌号“J1397”的资深员工缓慢经过,但并未做任何反应停留。 对此,运维部门 XX 经理答复道,当是运维人员因公出差,此地服务器不属于我们管辖范围内。 被解聘实习生:“我看电视才知道自己已经解聘了,以后不想再干这份工作,我想离开美国”。 受影响客户:希望运维道歉 规范操作 |
46
kuner0614 2020-12-15 11:17:23 +08:00
昨天 p 站也调整了内容政策,删除了未认证账号的发布视频。目前 P 站的视频总数从 1300 万部降至仅 400 万部。
另外,以后仅允许认证用户发布视频,方式是上传手持 ID 的照片。 |
47
6IbA2bj5ip3tK49j 2020-12-15 11:21:32 +08:00 12
说实话,我是不信的。
硬盘是最容易冗余,最低价的设施了。 Authentication 系统出问题,这也不是一个会产生大量数据的系统。 当然,在有些人眼里,谷歌说啥都是对,楼上都快扯到阿共的阴谋了。 |
48
hd2ex 2020-12-15 11:23:29 +08:00 2
没什么丢人的,错误不论高级还是低级,是人就会犯。诚恳面对的态度才可以造就伟大,而这正是国内环境缺少的。
|
49
TypeError 2020-12-15 11:24:14 +08:00 2
spanner/f1 数据库不是全球分布式的吗
|
51
wangkai123 2020-12-15 11:27:27 +08:00 7
quota 和磁盘满了还是有区别吧,别搞这种营销号标题。。
|
52
Williams2008 2020-12-15 11:32:01 +08:00 via Android 1
所以说地主家也没余粮了?
|
53
matrix67 OP |
54
feast 2020-12-15 11:39:02 +08:00
Y2B 一直 something wrong,http500 就知道是谷歌服务器出问题了,不过不登录的话是正常的,应该是用户评论数据那块满了
|
55
mingt 2020-12-15 11:40:18 +08:00 5
googlephotos
不免费的原因是 AI 学习的资源已经足够了, 不再需要各位提供了而已 |
56
weifan 2020-12-15 11:41:51 +08:00 1
是我高估 Google 了...
|
57
sm0king 2020-12-15 11:44:33 +08:00 1
都遇到过磁盘满的事情吧?
也没见多少因为磁盘满宕机的。 |
59
laoyur 2020-12-15 11:51:17 +08:00 1
很好,那正好可以为油管删除它不喜欢的视频找到借口了,磁盘不够了
|
61
Narcissu5 2020-12-15 11:55:20 +08:00 9
@goodryb 大侠有所不知,像阿里云这种每次出了问题死不承认,说是我们程序 BUG 让我们找原因,真是能把人憋屈死。另外阿里云的那么多个 9 也完全是靠死不认错换来的
|
62
superrichman 2020-12-15 11:58:35 +08:00 via iPhone
@goodryb 信息透明,开放,比糊弄用户要好多了,用户可能不懂技术问题,但是服务提供者给出真实的事故说明很加分。
|
63
js8510 2020-12-15 12:01:07 +08:00 via Android 2
Quota 不是硬盘资源吃紧 是某些 service 分配的 quota 用完了会被 downstream throttled
|
65
AllRightReserve 2020-12-15 12:17:50 +08:00 1
果然跟我们的百度网盘比还是有一段路要走!
|
66
mwftts 2020-12-15 12:48:49 +08:00 via Android
公司 SAP HANA DB 出错,宕机两次,阿里云可以申请赔偿,只是留给优惠券而已
|
67
deeplydrink 2020-12-15 12:52:24 +08:00
天啊。。。。。真的啊,,,
|
68
bnrwnjyw 2020-12-15 12:52:42 +08:00
讲道理,别管问题低不低级,贴了原因就是诚实啊。总比某些服务挂了永远不说原因,它犯的就是“高级错误”?
|
69
love 2020-12-15 13:01:51 +08:00 2
楼上说得好象 Google 也公布了细节似的,这说内部存储问题和说网络抖动有什么区别
|
70
smilingsun 2020-12-15 13:14:12 +08:00 1
看 SRE 书里面讲,Google SRE 写 postmortem 都不会被 blame 。
话说对外会不会有更详细的解释? |
71
leonidas 2020-12-15 13:19:24 +08:00
@NerverLibis 优秀
|
72
cholerae 2020-12-15 13:20:38 +08:00 1
谁说的 internal storage quota issue 一定是容量满了。。。。
|
73
towry 2020-12-15 13:32:07 +08:00
他说是啥就是啥
|
75
ntgeralt 2020-12-15 13:37:32 +08:00
所以,上面的读者都信是储存满了?
|
77
reus 2020-12-15 14:02:24 +08:00
storage quota 问题,不一定是磁盘满了,也可能是配额设置有问题,配少了,或者没有自动调整配额,等等。
|
78
reus 2020-12-15 14:04:45 +08:00 1
@love https://status.cloud.google.com/incident/cloud-networking/19009 以前公布的一些细节。这就是区别。刚恢复没有细节也不奇怪,但不公布细节不是谷歌的风格。
|
79
exploreexe 2020-12-15 14:04:57 +08:00
不愧是你。
还是我爱的谷歌,宕机的理由都是这么清新脱俗。:doge |
80
reus 2020-12-15 14:07:49 +08:00
https://sre.google/sre-book/postmortem-culture/
Postmortem Culture: Learning from Failure Blameless 才是好哲学,出了一点点问题就找人背锅,只会让人倾向于掩盖问题 |
81
willsplashing 2020-12-15 14:46:53 +08:00
"internal storage quota issue" 是非常精确而且客观的描述,这都能联想到阴谋论也是醉了
|
82
frostming 2020-12-15 14:48:34 +08:00
别这样,谷歌一挂,大家都炸了,你让有关部门的脸往哪搁
|
83
Y29tL2gwd2Fy 2020-12-15 14:52:41 +08:00 via iPhone
张口就来磁盘满了,呵呵
|
84
whileFalse 2020-12-15 15:08:42 +08:00
@ddefewfewf #35 为啥凉了?我刚买了终身会员🐶
|
85
matrix67 OP @Y29tL2gwd2Fy #83
@willsplashing #81 @reus #78 @reus #77 @ntgeralt #75 补充一下,这边有详细原因解释,大家不用瞎猜了哈。 rsus 老哥最稳!!! https://status.cloud.google.com/incident/zall/20013 The root cause was an issue in our automated quota management system which reduced capacity for Google's central identity management system, causing it to return errors globally. |
86
baiyi 2020-12-15 15:15:59 +08:00
https://status.cloud.google.com/incident/zall/20013
"The root cause was an issue in our automated quota management system which reduced capacity for Google's central identity management system, causing it to return errors globally. " 还没有更细节的内容,但这个描述能说明不是单纯的磁盘满了 |
87
Voichesapete 2020-12-15 15:25:22 +08:00
@baiyi
看了卫报的报道,就是磁盘写满的原因吧。When that storage filled up, the system should have automatically made more available; instead, it seems it didn’t, which meant the system crashed https://www.theguardian.com/technology/2020/dec/14/google-suffers-worldwide-outage-with-gmail-youtube-and-other-services-down |
88
ggabc 2020-12-15 15:47:16 +08:00
楼层里的评论,感觉经历过集群项目的人不多啊。说不定人家谷歌的系统多复杂呢!
|
89
XiLingHost 2020-12-15 15:54:01 +08:00
这是自动磁盘配额管理出现的问题,应该是自动配额调整出现故障导致的,八成是算法问题,没有及时调整存储池配额或者是应用了错误的配额,和磁盘写满没啥关系
|
90
willsplashing 2020-12-15 15:59:45 +08:00
@Voichesapete 卫报纯属 speculation 。可以很负责的说只是 quota issue 不是 disk capacity issue
|
92
hafuhafu 2020-12-15 16:09:13 +08:00
好奇怪啊,我昨天听朋友说谷歌挂了的时候我还能看油管、并且发评论,虽然头像显示不出来。
|
93
Nadao 2020-12-15 16:39:18 +08:00
|
94
Voichesapete 2020-12-15 16:47:42 +08:00
@willsplashing 细看了谷歌的分析,确实不是磁盘写满
|
95
jjianwen68 2020-12-15 16:55:06 +08:00
@kuner0614 P 站这删除是物理删除还是只是不给用户看到,要是物理删除的话,里面有质量高的视频岂不是很遗憾
|
96
mxydsg8858 2020-12-15 17:08:22 +08:00
@kuner0614 泪目
|
97
ShadowWhisper 2020-12-15 18:17:33 +08:00
昨天还以为账号被删了,老是提示我邮箱不存在
|
100
cassyfar 2020-12-15 19:23:39 +08:00
|