好奇啥问题能持续这么久
1
hxndg 2023-11-28 11:52:06 +08:00
同好奇,等结论
|
2
QKgf555H87Fp0cth 2023-11-28 11:52:24 +08:00 12
降本增笑?
|
3
Ericcccccccc OP |
4
zhuoyue100 2023-11-28 12:08:01 +08:00
搞一晚上都没搞好,可怕
|
5
Djaron 2023-11-28 12:10:05 +08:00
相关程序猿又通宵了
|
6
killva4624 2023-11-28 12:10:46 +08:00 3
是错觉吗,今年各类互联网厂商出问题的次数都变高了。
|
7
moyt 2023-11-28 12:12:40 +08:00
估计是降本增笑
|
8
egfegdfr 2023-11-28 12:13:14 +08:00
@Ericcccccccc 同好奇, 如果是新功能导致的, 是不是可以把这个功能先下了, 就会恢复?
|
9
B1acKy1in 2023-11-28 12:13:36 +08:00
@killva4624 降本增笑嘛
|
10
crazycen 2023-11-28 12:14:54 +08:00
应该到 28 号现在还没全部修好,今天服务号里面的通知、福利信息、会员信息等,都还 502 Bad Gateway 呢。
|
11
lisongeee 2023-11-28 12:15:05 +08:00
早上也用不了滴滴,然后我用百度地图打到了滴滴,司机师傅说他用的旧版本,所以能收到订单,其它师傅都用不了
|
12
chackchackGO 2023-11-28 12:23:07 +08:00
最近咋这么多大厂出事?
|
13
JackyTsang 2023-11-28 12:26:17 +08:00 via Android
降本增笑,估计又得甩锅外包人士。
|
14
via 2023-11-28 13:21:23 +08:00
开猿截流导致的吧
|
15
yuji 2023-11-28 13:25:02 +08:00
真的是 k8s 吗
|
16
Orangeee 2023-11-28 13:26:42 +08:00 8
看到一个笑话:滴滴员工因为没法打到滴滴,无法及时回到公司处理线上问题,导致滴滴 APP 无法正常使用。
|
17
Binini 2023-11-28 13:33:02 +08:00
直接原因可能是:
1. 变更前没有测试到位,引起底层基础设施问题。 2. 被日了,可能是授权下不规范渗透测试或众测引发的,也可能是外部未授权的攻击行为。 根本原因可能是: 1. 不规范操作 2. 安全控制不到位 3. 高可用没做好 次要原因可能是: 1. 降本增笑 2. 应急人员打不到滴滴 官方原因可能是: 1. 系统意外故障 2. 外包人员违规操作 3. 被国外组织攻击 |
18
plutome 2023-11-28 13:52:38 +08:00
截止 2023-11-28 13:51,故障还未彻底修复,很多功能依旧无法使用。
到底是啥问题呢? |
19
proxychains 2023-11-28 14:02:33 +08:00
内部人士大抵在通宵修 BUG
|
20
alsas 2023-11-28 14:32:27 +08:00
降本增笑
|
21
hooych 2023-11-28 14:36:18 +08:00
开猿截流,降本增笑
一个字,绝! |
22
ygmpkk 2023-11-28 14:43:24 +08:00
10 点多的云服务变更,10:16 分就全挂了,告警、降级、预案全部失效
|
24
totoro52 2023-11-28 15:01:43 +08:00
滴滴攻城狮已经连夜进行抢修!(但因为没办法叫到滴滴回不来公司,已采取步行方式,请耐心等待)
|
27
anzu 2023-11-28 15:11:26 +08:00
都是草台
|
28
itechnology 2023-11-28 15:13:30 +08:00
据我不负责任的推测,很有可能又是降本增笑搞的,把经验老的员工裁员了,只留下了成本低的新员工……
|
29
dollar 2023-11-28 15:41:04 +08:00 via iPhone
在推上看到的消息是说 k8s 集群挂了,服务都挂了,包括内部聊天软件,只能用微信联系处理故障
|
31
xiang0818 2023-11-28 15:47:55 +08:00
不能在外部平台上公开讨论工作信息。安全红线
|
32
pws22 2023-11-28 15:51:38 +08:00
前段时间我们也 k8s 集群挂了,整个 etcd 集群节点数不够一直启动不起来,恢复这玩意整个不知道咋恢复。。
|
33
wqhui 2023-11-28 15:54:59 +08:00
@killva4624 盲猜最近一两年裁员裁狠了,把底层干活的裁了不少,一个人负责原本两三个人的工作,交接也没交接好
|
34
buchikoma 2023-11-28 18:16:32 +08:00
盆友圈看到的
1. ys 机房挂了,需要双机房切流预案,结果预案平台挂了执行不了,需要先恢复预案平台 2. 核心交易链路有重试,错误率高的时候用户也在重试,限流能把错误率提升,用户继续增加重试,错误率继续提升; 3. 部分业务核心交易链路依赖供给端链路,B 端业务复杂还控制新增服务,服务相互依赖严重,内部 rpc 还普遍有 check; 启动 A 服务需要先启动 B 服务,B 服务依赖的 C 服务需要 A 服务启动; 4.止损需要拉群,结果 IM 挂了,需要微信拉 umeet ,还好 umeet 不是 dd 的 5. 早高峰拉研发到班止损,很多打不到车,导致没法止损 6. 双机房预案演练只练切流不练放火,反正非 P 或 Q ,管他 P 为真为假。 |
36
CodingBandit 2023-11-28 19:08:40 +08:00 via iPhone
@hooych
绝 |
37
learnshare 2023-11-28 19:18:15 +08:00
@soloHm
Angular 1.* 当年文档坏了,去 Github 上反馈,核心团队也[开玩笑]让我去文档网站反馈(实际上是打不开的) |
38
Ericcccccccc OP |
39
buchikoma 2023-11-28 19:39:45 +08:00
@Ericcccccccc #38 这种大业务一般不会随意切流,必定是先告警再手动 check 手动切流,而且切流操作也得是白屏化,这就导致又依赖了一个不稳定服务
大公司就这点不好,夸部门沟通有壁垒,没办法独立完成所有运维操作 |
41
zhleonix 2023-11-28 20:40:43 +08:00
滴滴 23 点出问题,程序员 VPN 也登不上,于是出去打滴滴去公司,可是滴滴挂了。。。
|
44
shinkashinra 2023-11-29 00:17:03 +08:00 via iPhone
@zhleonix 这个感觉是梗…真十万火急的情况,难道还打不到出租车或者开车去么
|
45
djasdjds 2023-11-29 09:52:04 +08:00
打不了车也太扯淡了,外面出租车花小猪高德都可以打,如果十万火急,哪个领导没车?几趟组里人拉不过去。。。
|
46
onlyhuiyi 2023-11-29 10:45:00 +08:00
@buchikoma #34 请教下,"反正非 P 或 Q ,管他 P 为真为假" 这句没有看明白 P 和 Q 是什么缩写
|
47
buchikoma 2023-11-29 11:22:15 +08:00 1
@onlyhuiyi #46 p 和 q 是两个条件,只要 q 是真的,无所谓 p 是真是假,而如果 q 是假的,那 p 也肯定是假的。
其实意思就是,演练只练习切流成功没有,至于是否是在真正异常场景下,还是正常环境都不重要,case 不完善,只注重形式 |
50
elmagnificogg 2023-11-30 14:04:00 +08:00
滴滴应该现在都没恢复,软件内置的都是第三方打车的接口,滴滴自己的不知道藏哪去了
|