Key take away
* 高质量的告警是actionable的
* 不应该用采集的难度决定你使用什么指标去告警
* 不要别人做什么告警,你就做什么,要做“真正”有用的告警:特别是cpu使用率告警
* is work getting done:请求数 + 成功率
* is the user having good experience:响应延迟
* 只要采集对了指标,大部分时候告警不需要复杂算法
* 基于算法的异常检测:算法不难,实在必要也是可以做到的
http://segmentfault.com/a/1190000003021919