V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
zhaojiaxing
V2EX  ›  问与答

问题来了,什么底层系统软件能造成这么大的故障呢?

  •  
  •   zhaojiaxing · 354 天前 · 3966 次点击
    这是一个创建于 354 天前的主题,其中的信息可能已经有所发展或是发生改变。
    再一次致歉
    11 月 27 日夜间发生的系统故障,给广大用户造成了诸多困扰和不便,在大家需要我们的时候,我们让大家失望了,再次向大家真诚致歉。
    各项服务恢复的同时,我们在 28 日启动了内部复盘调查。初步确定,这起事故的起因是底层系统软件发生故障,并非网传的“遭受攻击”,后续我们将深入开展技术风险隐患排查和升级工作,全面保障服务稳定性,尽最大努力避免类似事故再发生
    目前,滴滴 App 的所有服务已经全部恢复。因这起事故给大家造成的困扰和问题,我们正在加快妥善解决。感谢大家对滴滴的鞭策、关心和包容。今天的滴滴还有很多不足,我们将以此为戒,在全公司范围内深刻反思,全力改正,继续努力做好服务保障。
    滴滴出行
    2023 年 11 月 29 日
    25 条回复    2023-11-30 10:15:28 +08:00
    lDqe4OE6iOEUQNM7
        1
    lDqe4OE6iOEUQNM7  
       354 天前   ❤️ 8
    开猿节流,降本增笑
    lDqe4OE6iOEUQNM7
        2
    lDqe4OE6iOEUQNM7  
       354 天前
    常规的 bug,不可能宕机这么久
    zfy941
        3
    zfy941  
       354 天前
    了解底层和能解决底层问题的人被优化了
    写 ppt 的人发现怎么写 ppt 也解决不了问题
    stinkytofu
        4
    stinkytofu  
       354 天前   ❤️ 4
    越底层的服务, 平时越不显眼, 开发维护人员越得不到重视, 甚至都写不了漂亮的 KPI
    weiweiwitch
        5
    weiweiwitch  
       354 天前
    @stinkytofu 这其实也是做后端特别是底层基础设施的人的苦和原罪。
    即使公司很重视,但因为是保障性工作。也是非常依赖技术人的职业道德和自律来维持。管理层做的最多,也只能像菩萨一样供着,但也无法一定保证不出问题。
    bt7vip
        6
    bt7vip  
       354 天前 via Android   ❤️ 4
    遇到 xfs 系统因为驱动缺陷,空间被占满导致宕机,重启后,挂载没有报错,执行任何读写操作都会报错,存在块错误。
    可以解决吗?
    常规方法,校验文件完整,进行修复。
    能做吗--不做。
    20t 数据,因为几个块数据没写入,就造成整个系统文件损坏,校验就要校验 20T ,还不保证数据能恢复。
    有人能做吗--有,找精通 xfs 的人处理。
    费用谁出,手动修复失败谁背锅。非在职人员处理接触业务,出了问题谁担责。
    招一个???刚裁掉。
    zhaojiaxing
        7
    zhaojiaxing  
    OP
       354 天前
    @bt7vip 艹,悲哀啊
    zhaojiaxing
        8
    zhaojiaxing  
    OP
       354 天前
    @weiweiwitch 确实会这样,太难了
    dode
        9
    dode  
       354 天前
    滴滴作为上市公司有义务公布这个故障详细原因吗?
    kokutou
        10
    kokutou  
       354 天前
    oa 系统数据库在一个 Linux 服务器上,
    磁盘是 lvm thin 的, 格式是 xfs

    硬盘没有满, 但是为啥程序报错了, 写入不了了呢...

    检查发现 meta 满了....
    fxxkgw
        11
    fxxkgw  
       354 天前 via Android   ❤️ 1
    K8S 多了就不透露了
    zong400
        12
    zong400  
       354 天前
    #6 #10 是真相?
    LXchienne
        13
    LXchienne  
       354 天前
    @kokutou #10 求问,oa 系统挂了,为啥 app 端也一锅端了呀
    iyiluo
        14
    iyiluo  
       354 天前
    整天说高可用,容灾,异地部署,怎么一台机器挂了就全挂了
    crazyTanuki
        15
    crazyTanuki  
       354 天前
    裁员省的钱和出问题亏损的钱,哪个多?
    Goooooos
        16
    Goooooos  
       354 天前


    网传截图,不知道真假
    LeibnizLeo
        17
    LeibnizLeo  
       354 天前
    学到了学到了
    shengmi
        18
    shengmi  
       354 天前
    道理都懂,先别急~让开车的上下班先爽几天
    zhaojiaxing
        19
    zhaojiaxing  
    OP
       354 天前
    @Goooooos 好像都在传这个版本
    buffzty
        20
    buffzty  
       354 天前
    18 个小时才修复 肯定就不是技术问题 而是经验问题了 有些软件一旦升级就出错 而且这个错你搜不到 就是无法运行 除非你以前搞过 不然就慢慢从底层往上研究吧 他们 18 个小时才好 说不定以前负责这个的人改个参数就重启好了
    xishijt
        21
    xishijt  
       354 天前
    @Goooooos imgurl 屏蔽了大部分鸡场 IP 要怎么正确查看?
    V2Q
        23
    V2Q  
       354 天前
    我乱说的,会不会被黑了,前不久的阿里 ,这次的滴滴,下一个 xxx
    Stoney
        24
    Stoney  
       354 天前 via iPhone
    @xishijt
    套 warp
    somebody1
        25
    somebody1  
       353 天前
    @V2Q
    xvide ?没关系,还有 phub 呢
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1579 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 16:45 · PVG 00:45 · LAX 08:45 · JFK 11:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.