Skip to content

ahan-ai/stability

Repository files navigation

目的

本书介绍分布式服务稳定性建设的各个方面,覆盖了架构设计、监控告警、线上运维等方向,希望给读者提供一个比较全面、体系化的视角。对于软件架构师、初步入职场的工程师、SRE等,相信本书可以提供一定的价值。

Part 1 概述

  1. 稳定性概述

Part 2 稳定性架构设计

在稳定性建设中,事前防御是至关重要的一环,所谓“防范于未然”。它着重于在系统设计和开发阶段采取措施,预防潜在的稳定性问题和故障的发生,以确保系统的可靠性和稳定性。同时通过各种自动化的故障测试和演练,提前识别风险。这也是稳定性建设最经济高效的方式。稳定性相关的设计,在分布式服务的设计阶段越早考虑,效果就越好,否则到后期系统问题频发,积重难返时再想考虑一些稳定性特性的开发,返工的代价就很大了。

事前防御的介绍是稳定性建设中篇幅最长的一部分。这一部分,我们会分享几十种常见的稳定性风险,并说明如何通过合理的设计尽可能规避这些风险。

  1. 避免单点故障
  2. 备份核心数据
  3. 隔离
  4. 删除保护
  5. 兼容性设计
  6. 灰度
  7. 无感升级
  8. 流量控制
  9. 监控告警
  10. 容灾切换
  11. SOP
  12. 应急指挥

Part 3 监控&告警

Part 4 测试

  1. 测试

Part 5 安全

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages