本书介绍分布式服务稳定性建设的各个方面,覆盖了架构设计、监控告警、线上运维等方向,希望给读者提供一个比较全面、体系化的视角。对于软件架构师、初步入职场的工程师、SRE等,相信本书可以提供一定的价值。
在稳定性建设中,事前防御是至关重要的一环,所谓“防范于未然”。它着重于在系统设计和开发阶段采取措施,预防潜在的稳定性问题和故障的发生,以确保系统的可靠性和稳定性。同时通过各种自动化的故障测试和演练,提前识别风险。这也是稳定性建设最经济高效的方式。稳定性相关的设计,在分布式服务的设计阶段越早考虑,效果就越好,否则到后期系统问题频发,积重难返时再想考虑一些稳定性特性的开发,返工的代价就很大了。
事前防御的介绍是稳定性建设中篇幅最长的一部分。这一部分,我们会分享几十种常见的稳定性风险,并说明如何通过合理的设计尽可能规避这些风险。