站点可靠性工程(SRE):一种把软件工程方法应用到运维与生产系统管理中的实践与岗位方向,目标是在可靠性(稳定性、可用性)与交付速度/成本之间取得平衡。常见工作包括:设定与度量服务目标(如 SLI/SLO)、自动化运维、监控告警、容量规划、故障应急与复盘等。该术语最常与 Google 的工程实践相关。
/saɪt rɪˌlaɪəˈbɪləti ˌɛnʤɪˈnɪrɪŋ/
We’re hiring a site reliability engineering team to improve uptime.
我们正在招聘站点可靠性工程团队来提升系统在线率。
Site reliability engineering helps define service-level objectives and reduces outages through automation and careful monitoring.
站点可靠性工程通过定义服务级别目标,并借助自动化与严密监控来减少故障宕机。
该短语由 site(站点/系统)+ reliability(可靠性)+ engineering(工程/工程化)构成。现代语境下的 SRE 概念在 2000 年代由 Google 内部实践体系化并推广开来,强调用工程化手段(代码、自动化、标准化)来管理大规模线上系统的可靠性。