互联网系统稳定性建设:方法论与实践
前言:怎样的系统算是稳定高可用的
首先回答另一个问题,怎样的系统算是稳定的?
Google SRE中(SRE三部曲[1])有一个层级模型来描述系统可靠性基础和高层次需求(Dickerson’s Hierarchy of Service Reliability),如下图:
该模型由Google SRE工程师Mikey Dickerson在2013年提出,将系统稳定性需求按照基础程度进行了不同层次的体系化区分,形成稳定性标准金字塔模型:
- 金字塔的底座是监控(Monitoring),这是一个系统对于稳定性最基础的要求,缺少监控的系统,如同蒙上眼睛狂奔的野马,无从谈及可控性,更遑论稳定性。
- 更上层是应急响应(Incident Response),从一个问题被监控发现到最终解决,这期间的耗时直接取决于应急响应机制的成熟度。合理的应急策略能保证当故障发生时,所有问题能得到有序且妥善的处理,而不是慌乱成一锅粥。
- 事后总结以及根因分析(Postmortem&Root Caue Analysis),即我们平时谈到的“复盘”,虽然很多人都不太喜欢这项活动,但是不得不承认这是避免我们下次犯同样错误的最有效手段,只有当摸清故障的根因以及对应的缺陷,我们才能对症下药,合理进行规避。
- 测试和发布管控(Testing&Release procedures),大大小小的应用都离不开不断的变更与发布,有效的测试与发布策略能保障系统所有新增变量都处于可控稳定区间内,从而达到整体服务终态稳定
- 容量规划(Capacity Planning)则是针对于这方面变化进行的保障策略。现有系统体量是否足够支撑新的流量需求,整体链路上是否存在不对等的薄弱节点,都是容量规划需要考虑的问题。
- 位于金字塔模型最顶端的是产品设计(Product)与软件研发(Development),即通过优秀的产品设计与软件设计使系统具备更高的可靠性,构建高可用产品架构体系,从而提升用户体验
系统稳定性建设概述
从金字塔模型我们可以看到构建维护一个高可用服务所需要做到的几方面工作:
- 产品、技术、架构的设计,高可用的架构体系
- 系统链路&业务策略梳理和维护(System & Biz Profiling)
- 容量规划(Capacity Planning)
- 应急响应(Incident Response)
- 测试
- 事后总结(Testing & Postmortem)
- 监控(Monitoring)
- 资损体系
- 风控体系
- 大促保障
- 性能优化
监控&告警梳理 – Monitoring
站在监控的角度看,我们的系统从上到下一般可以分为三层:业务(Biz)、应用(Application)、系统(System)。系统层为最下层基础,表示操作系统相关状态;应用层为JVM层,涵盖主应用进程与中间件运行状态;业务层为最上层,为业务视角下服务对外运行状态。因此进行大促稳定性监控梳理时,可以先脱离现有监控,先从核心、资损链路开始,按照业务、应用(中间件、JVM、DB)、系统三个层次梳理需要哪些监控,再从根据这些索引找到对应的监控告警,如果不存在,则相应补上;如果存在则检查阈值、时间、告警人是否合理。
监控
监控系统一般有四项黄金指标:延时(Latency), 错误(Error),流量(Traffic), 饱和度(Situation),各层的关键性监控同样也可以按照这四项指标来进行归类,具体如下:
告警
是不是每项监控都需要告警?答案当然是否定的。建议优先设置Biz层告警,因为Biz层我们对外服务最直观业务表现,最贴切用户感受。Application&System层指标主要用于监控,部分关键&高风险指标可设置告警,用于问题排查定位以及故障提前发现。对于一项告警,我们一般需要关注级别、阈值、通知人等几个点。
- 级别
即当前告警被触发时,问题的严重程度,一般来说有几个衡量点:
- 是否关联NOC
- 是否产生严重业务影响
- 是否产生资损
- 阈值
- 即一项告警的触发条件&时间,需根据具体场景合理制定。一般遵循以下原则:
- 不可过于迟钝。一个合理的监控体系中,任何异常发生后都应触发相关告警。
- 不可过于敏感。过于敏感的阈值会造成频繁告警,从而导致响应人员疲劳应对,无法筛选真实异常。若一个告警频繁出现,一般是两个原因:系统设计不合理 or 阈值设置不合理。
- 若单一指标无法反馈覆盖整体业务场景,可结合多项指标关联构建。
- 需符合业务波动曲线,不同时段可设置不同条件&通知策略。
- 通知人&方式
- 若为业务指标异常(Biz层告警),通知人应为问题处理人员(开发、运维同学)与业务关注人员(TL、业务同学)的集合,通知方式较为实时,比如电话通知。
- 若为应用 & 系统层告警,主要用于定位异常原因,通知人设置问题排查处理人员即可,通知方式可考虑钉钉、短信等低干扰方式。
- 除了关联层次,对于不同级别的告警,通知人范围也可适当扩大,尤其是关联GOC故障的告警指标,应适当放宽范围,通知方式也应更为实时直接
应产出数据
完成该项梳理工作后,我们应该产出以下数据:
- 系统监控模型,格式同表1
- Biz、Application、System 分别存在哪些待监控点
- 监控点是否已全部存在指标,仍有哪些待补充
- 系统告警模型列表,需包含以下数据
- 关联监控指标(链接)
- 告警关键级别
- 是否推送GOC
- 是否产生资损
- 是否关联故障
- 是否关联预案
- 业务指标大盘,包含Biz层重点监控指标数据
- 系统&应用指标大盘,包含核心系统关键系统指标,可用于白盒监控定位问题。
高可用的架构设计
高可用架构是系统稳定性的基石。一个好的架构设计能够从根本上减少故障发生的概率,并在故障发生时将影响范围降到最低。
高可用架构核心原则
1. 冗余设计(Redundancy)
冗余是实现高可用的基础手段,通过部署多个相同的组件来消除单点故障。
| 冗余层级 | 实现方式 | 典型场景 |
|---|---|---|
| 应用层冗余 | 多实例部署 + 负载均衡 | Web 服务、API 网关 |
| 数据层冗余 | 主从复制、多副本 | MySQL 主从、Redis Cluster |
| 机房冗余 | 同城双活、异地多活 | 核心交易系统 |
| 网络冗余 | 多运营商、多链路 | CDN、DNS |
冗余度计算:
假设单节点可用性为 99%,双节点冗余后可用性 = 1 - (1-0.99)² = 99.99%
2. 解耦设计(Decoupling)
1 | 紧耦合架构 解耦架构 |
解耦手段:
- 异步化:同步调用改为消息队列异步处理
- 服务化:单体拆分为微服务,故障隔离
- 接口抽象:依赖抽象而非实现,便于替换
3. 隔离设计(Isolation)
| 隔离维度 | 实现方式 | 目的 |
|---|---|---|
| 线程池隔离 | 核心业务独立线程池 | 防止非核心业务拖垮核心链路 |
| 进程隔离 | 独立部署、容器化 | 资源隔离,故障不传导 |
| 集群隔离 | 按业务/用户分集群 | 大客户/VIP 用户独立资源 |
| 机房隔离 | 单元化部署 | 机房级故障隔离 |
4. 无状态设计(Stateless)
无状态服务是水平扩展和快速故障恢复的前提。
1 | // 有状态设计(不推荐) |
状态外置方案:
- Session → Redis/Memcached
- 文件上传 → 对象存储(S3/OSS)
- 定时任务状态 → 数据库/ZooKeeper
高可用架构模式
1. 主从模式(Primary-Secondary)
- 适用场景:数据库、缓存、消息队列
- 故障切换:主节点故障后,从节点提升为主节点
- 数据一致性:同步复制(强一致)vs 异步复制(最终一致)
1 | MySQL 主从架构: |
2. 集群模式(Cluster)
- 对等集群:所有节点地位相等,如 Redis Cluster
- 分片集群:数据按规则分布到不同节点,如 Elasticsearch
1 | Redis Cluster 架构(16384 槽位): |
3. 同城双活架构
1 | ┌─────────────┐ |
关键设计点:
- 流量调度:DNS/GSLB 按比例分配流量
- 数据同步:MySQL 半同步复制,延迟 < 100ms
- 故障切换:机房 A 故障时,流量全部切到机房 B
4. 异地多活架构
异地多活是最复杂也是可用性最高的架构模式,核心挑战是数据一致性。
1 | 北京 上海 广州 |
单元化设计要点:
- 分片键选择:通常按用户 ID 分片,保证同一用户请求落到同一单元
- 全局服务:库存、支付等需要全局一致的服务单独部署
- 数据同步:DTS/Canal 异步同步,解决跨单元数据查询
高可用保护机制
1. 限流(Rate Limiting)
1 | // 令牌桶限流器实现 |
2. 熔断(Circuit Breaker)
熔断器三状态:关闭(正常)→ 打开(熔断)→ 半开(探测)
1 | 错误率 > 阈值 |
3. 降级(Degradation)
| 降级类型 | 触发条件 | 降级策略 |
|---|---|---|
| 自动降级 | 错误率/RT 超阈值 | 返回缓存数据或默认值 |
| 手动降级 | 大促前/故障时 | 关闭非核心功能 |
| 读降级 | 主库压力大 | 读走从库或缓存 |
| 写降级 | 下游不可用 | 写入 MQ 异步重试 |
4. 超时控制
1 | // 超时控制最佳实践 |
超时设置原则:
- 上游超时 > 下游超时(避免上游已超时,下游还在执行)
- 预留 Buffer:下游 RT P99 + 20%
- 级联超时:A→B→C,A 超时 = B 超时 + C 超时 + Buffer
系统链路梳理和维护 System & Biz Profiling
系统链路梳理是所有保障工作的基础,如同对整体应用系统进行一次全面体检,从流量入口开始,按照链路轨迹,逐级分层节点,得到系统全局画像与核心保障点。
入口梳理盘点
一个系统往往存在十几个甚至更多流量入口,包含HTTP、RPC、消息等都多种来源。如果无法覆盖所有所有链路,可以从以下三类入口开始进行梳理:
- 核心重保流量入口
- 用户承诺服务SLI较高,对数据准确性、服务响应时间、可靠度具有明确要求。
- 业务核心链路,浏览、下单、支付、履约
- 面向企业级用户
- 资损事件对应入口
- 关联到公司资金收入或者客户资金收入收费服务
- 大流量入口
- 系统TPS&QPS TOP5~10
- 该类入口虽然不涉及较高SLI与资损要求,但是流量较高,对整体系统负载有较大影响
节点分层判断
对于复杂场景可以做节点分层判断
流量入口就如同线团中的线头,挑出线头后就可按照流量轨迹对链路上的节点(HSF\DB\Tair\HBase等一切外部依赖)按照依赖程度、可用性、可靠性进行初级分层区分。
- 强弱依赖节点判断
- 若节点不可用,链路业务逻辑被中断 or 高级别有损(存在一定耐受阈值),则为业务强依赖;反之为弱依赖。
- 若节点不可用,链路执行逻辑被中断(return error),则为系统强依赖;反之为弱依赖。
- 若节点不可用,系统性能受影响,则为系统强依赖;反之为弱依赖。
- 按照快速失败设计逻辑,该类节点不应存在,但是在不变更应用代码前提下,如果出现该类节点,应作为强依赖看待。
- 若节点无感可降级 or 存在业务轻微损伤替换方案,则为弱依赖。
- 低可用依赖节点判断
- 节点服务日常超时严重
- 节点对应系统资源不足
- 高风险节点判断
- 上次大促后,节点存在大版本系统改造
- 新上线未经历过大促的节点
- 节点对应系统是否曾经出现高级别故障
- 节点故障后存在资损风险
应产出数据
- 识别核心接口(流程)调用拓扑图或者时序图(借用分布式链路追踪系统获得调用拓扑图)
- 调用比
- 识别资损风险
- 识别内外部依赖
完成该项梳理工作后,我们应该产出以下数据:对应业务域所有核心链路分析,技术&业务强依赖、核心上游、下游系统、资损风险应明确标注。
业务策略&容量规划 Capacity Planning - 容量规划
业务策略
不同于高可用系统建设体系,大促稳定性保障体系与面向特定业务活动的针对性保障建设,因此,业务策略与数据是我们进行保障前不可或缺的数据。
一般大促业务数据可分为两类,全局业务形态评估以及应急策略&玩法。
全局评估
该类数据从可以帮助我们进行精准流量评估、峰值预测、大促人力排班等等,一般包含下面几类:
- 业务量预估体量(日常X倍)
- 预估峰值日期
- 大促业务时长(XX日-XX日)
- 业务场景预估流量分配
应急策略
- 该类数据指相较于往年大促活动,本次大促业务变量,可用于应急响应预案与高风险节点评估等,一般包含下面两类:
- 特殊业务玩法
容量规划的本质是追求计算风险最小化和计算成本最小化之间的平衡,只追求任意其一都不是合理的。为了达到这两者的最佳平衡点,需尽量精准计算系统峰值负载流量,再将流量根据单点资源负载上限换算成相应容量,得到最终容量规划模型。
流量模型评估
- 入口流量
对于一次大促,系统峰值入口流量一般由常规业务流量与非常规增量(比如容灾预案&业务营销策略变化带来的流量模型配比变化)叠加拟合而成。
- 常规业务流量一般有两类计算方式:
- 历史流量算法:该类算法假设当年大促增幅完全符合历史流量模型,根据当前&历年日常流量,计算整体业务体量同比增量模型;然后根据历年大促-日常对比,计算预估流量环比增量模型;最后二者拟合得到最终评估数据。
- 由于计算时无需依赖任何业务信息输入,该类算法可用于保障工作初期业务尚未给出业务总量评估时使用,得到初估业务流量。
- 业务量-流量转化算法(GMV\DAU\订单量):该类算法一般以业务预估总量(GMV\DAU\订单量)为输入,根据历史大促&日常业务量-流量转化模型(比如经典漏洞模型)换算得到对应子域业务体量评估。- 该种方式强依赖业务总量预估,可在保障工作中后期使用,在初估业务流量基础上纳入业务评估因素考虑。
- 非常规增量一般指前台业务营销策略变更或系统应急预案执行后流量模型变化造成的增量流量。例如,NA61机房故障时,流量100%切换到NA62后,带来的增量变化.考虑到成本最小化,非常规增量P计算时一般无需与常规业务流量W一起,全量纳入叠加入口流量K,一般会将非常规策略发生概率λ作为权重
- 节点流量
节点流量由入口流量根据流量分支模型,按比例转化而来。分支流量模型以系统链路为计算基础,遵循以下原则:
- 同一入口,不同链路占比流量独立计算。
- 针对同一链路上同一节点,若存在多次调用,需计算按倍数同比放大(比如DB\Tair等)。
- DB写流量重点关注,可能出现热点造成DB HANG死。
容量转化
节点容量是指一个节点在运行过程中,能够同时处理的最大请求数。它反映了系统的瞬时负载能力。
1)Little Law衍生法则
不同类型资源节点(应用容器、Tair、DB、HBASE等)流量-容量转化比各不相同,但都服从Little Law衍生法则,即:
节点容量=节点吞吐率×平均响应时间
2)N + X 冗余原则
在满足目标流量所需要的最小容量基础上,冗余保留X单位冗余能力
X与目标成本与资源节点故障概率成正相关,不可用概率越高,X越高
对于一般应用容器集群,可考虑X = 0.2N
全链路压测(TODO)
- 上述法则只能用于容量初估(大促压测前&新依赖),最终精准系统容量还是需要结合系统周期性压力测试得出。
应产出数据
- 基于模型评估的入口流量模型 & 集群自身容量转化结果(若为非入口应用,则为限流点梳理)。
- 基于链路梳理的分支流量模型 & 外部依赖容量转化结果。
大促保障
Incident Response - 紧急&前置预案梳理
要想在大促高并发流量场景下快速对线上紧急事故进行响应处理,仅仅依赖值班同学临场发挥是远远不够的。争分夺秒的情况下,无法给处理人员留有充足的策略思考空间,而错误的处理决策,往往会导致更为失控严重的业务&系统影响。因此,要想在大促现场快速而正确的响应问题,值班同学需要做的是选择题(Which),而不是陈述题(What)。而选项的构成,便是我们的业务&系统预案。从执行时机与解决问题属性来划分,预案可分为技术应急预案、技术前置预案、业务应急预案、业务前置预案等四大类。结合之前的链路梳理和业务评估结果,我们可以快速分析出链路中需要的预案,遵循以下原则:
- 技术应急预案:该类预案用于处理系统链路中,某层次节点不可用的情况,例如技术/业务强依赖、弱稳定性、高风险等节点不可用等异常场景。
- 技术前置预案:该类预案用于平衡整体系统风险与单节点服务可用性,通过熔断等策略保障全局服务可靠。例如弱稳定性&弱依赖服务提前降级、与峰值流量时间冲突的离线任务提前暂定等。
- 业务应急预案:该类预案用于应对业务变更等非系统性异常带来的需应急处理问题,例如业务数据错误(数据正确性敏感节点)、务策略调整(配合业务应急策略)等
- 业务前置预案:该类预案用于配和业务全局策略进行的前置服务调整(非系统性需求)
应产出数据
完成该项梳理工作后,我们应该产出以下数据:
- 执行&关闭时间(前置预案)
- 触发阈值(紧急预案,须关联相关告警)
- 关联影响(系统&业务)
- 决策&执行&验证人员
- 开启验证方式
- 关闭阈值(紧急预案)
- 关闭验证方式
阶段性产出-全链路作战地图
进行完上述几项保障工作,我们基本可得到全局链路作战地图,包含链路分支流量模型、强弱依赖节点、资损评估、对应预案&处理策略等信息。大促期间可凭借该地图快速从全局视角查看应急事件相关影响,同时也可根据地图反向评估预案、容量等梳理是否完善合理。
Incident Response - 作战手册梳理
作战手册是整个大促保障的行动依据,贯穿于整个大促生命周期,可从事前、事中、事后三个阶段展开考虑。整体梳理应本着精准化、精细化的原则,理想状态下,即便是对业务、系统不熟悉的轮班同学,凭借手册也能快速响应处理线上问题。
事前
1)前置检查事项清单
- 大促前必须执行事项checklist,通常包含以下事项:
- 集群机器重启 or 手动FGC
- 影子表数据清理
- 检查上下游机器权限
- 检查限流值
- 检查机器开关一致性
- 检查数据库配置
- 检查中间件容量、配置(DB\缓存\NoSQL等)
- 检查监控有效性(业务大盘、技术大盘、核心告警)
- 每个事项都需包含具体执行人、检查方案、检查结果三列数据
2)前置预案 - 域内所有业务&技术前置预案。
事中
- 紧急技术&业务预案
需要包含的内容基本同前置预案,差异点如下:
- 执行条件&恢复条件:具体触发阈值,对应监控告警项。
- 通知决策人。
- 应急工具&脚本
常见故障排查方式、核心告警止血方式(强弱依赖不可用等),业务相关日志捞取脚本等。 - 告警&大盘
- 应包含业务、系统集群及中间件告警监控梳理结果,核心业务以及系统大盘,对应日志数据源明细等数据:
- 日志数据源明细:数据源名称、文件位置、样例、切分格式。
- 业务、系统集群及中间件告警监控梳理结果:关联监控指标(链接)、告警关键级别、是否推送GOC、是否产生资损、是否关联故障、是否关联预案。
- 核心业务&系统大盘:大盘地址、包含指标明细(含义、是否关联告警、对应日志)。
- 上下游机器分组
- 应包含核心系统、上下游系统,在不同机房、单元集群分组、应用名,可用于事前-机器权限检查、事中-应急问题排查黑屏处理。
- 值班注意事项
- 包含每班轮班同学值班必做事项、应急变更流程、核心大盘链接等。
- 核心播报指标
- 包含核心系统&服务指标(CPU\LOAD\RT)、业务关注指标等,每项指标应明确具体监控地址、采集方式。
- 域内&关联域人员通讯录、值班
- 包含域内技术、TL、业务方对应排班情况、联系方式(电话),相关上下游、基础组件(DB、中间件等)对应值班情况。
- 值班问题记录
- 作战记录,记录工单、业务问题、预案(前置\紧急)(至少包含:时间、问题描述(截图)、影响分析、决策&解决过程等)。值班同学在值班结束前,进行记录。
事后
- 系统恢复设置事项清单(限流、缩容)
一般与事前检查事项清单对应,包含限流阈值调整、集群缩容等大促后恢复操作。 - 大促问题复盘记录
- 应包含大促遇到的核心事件总结梳理。
沙盘推演和演练 Incident Response
实战沙盘演练是应急响应方面的最后一项保障工作,以历史真实故障CASE作为应急场景输入,模拟大促期间紧急状况,旨在考验值班同学们对应急问题处理的响应情况。
一般来说,一个线上问题从发现到解决,中间需要经历定位&排查&诊断&修复等过程,总体遵循以下几点原则:
- 尽最大可能让系统先恢复服务,同时为根源调查保护现场(机器、日志、水位记录)。
- 避免盲目搜索,依据白盒监控针对性诊断定位。
- 有序分工,各司其职,避免一窝蜂失控乱象。
- 依据现场情况实时评估影响范围,实在无法通过技术手段挽救的情况(例如强依赖不可用),转化为业务问题思考(影响范围、程度、是否有资损、如何协同业务方)。
- 沙盘演练旨在检验值班同学故障处理能力,着重关注止血策略、分工安排、问题定位等三个方面:
国际化中台双11买家域演练
根据故障类型,常见止血策略有以下解决思路: - 入口限流:调低对应Provider服务来源限流值
- 应对突发流量过高导致自身系统、下游强依赖负载被打满。
- 下游降级:降级对应下游服务
- 下游弱依赖不可用。
- 下游业务强依赖经业务同意后降级(业务部分有损)。
- 单点失败移除:摘除不可用节点
- 单机水位飙高时,先下线不可用单机服务(无需下线机器,保留现场)。
- 应对集群单点不可用、性能差。
- 切换:单元切流或者切换备份
应对单库或某单元依赖因为自身原因(宿主机或网络),造成局部流量成功率下跌下跌。
Google SRE中,对于紧急事故管理有以下几点要素:
- 嵌套式职责分离,即分确的职能分工安排
- 控制中心\作战室
- 实时事故状态文档
- 明确公开的职责交接
- 其中嵌套式职责分离,即分确的职能分工安排,达到各司其职,有序处理的效果,一般可分为下列几个角色:
事故总控:负责协调分工以及未分配事务兜底工作,掌握全局概要信息,一般为PM/TL担任。
事务处理团队:事故真正处理人员,可根据具体业务场景&系统特性分为多个小团队。团队内部存在域内负责人,与事故总控人员进行沟通。
发言人:事故对外联络人员,负责对事故处理内部成员以及外部关注人员信息做周期性信息同步,同时需要实时维护更新事故文档。
规划负责人:负责外部持续性支持工作,比如当大型故障出现,多轮排班轮转时,负责组织职责交接记录
资损体系
资损(资金损失)是互联网业务中最严重的故障类型之一,尤其在金融、电商、支付等领域。资损防控体系需要覆盖事前预防、事中发现、事后止血的全生命周期。
资损场景分类
| 资损类型 | 场景举例 | 影响 |
|---|---|---|
| 多扣 | 重复扣款、金额计算错误 | 用户资金损失,客诉赔付 |
| 少扣 | 优惠券超发、折扣计算错误 | 公司资金损失 |
| 错付 | 付款到错误账户 | 资金追回困难 |
| 漏扣 | 订单状态异常导致未收款 | 应收账款损失 |
| 数据不一致 | 账务与实际资金不符 | 财务风险 |
事前:资损风险识别与预防
1. 资损风险点识别
通过链路梳理识别所有资损风险点:
1 | 订单链路资损风险点: |
2. 资损防控 Checklist
| 检查项 | 防控措施 | 责任人 |
|---|---|---|
| 接口幂等 | 唯一索引 + 状态机 | 开发 |
| 金额计算 | Decimal 类型,禁用浮点 | 开发 |
| 参数校验 | 金额上下限、业务规则校验 | 开发 |
| 权限控制 | 敏感操作二次确认 | 产品 |
| 配置变更 | 双人复核、灰度发布 | 运维 |
| 代码审查 | 资损相关代码强制 Review | Tech Lead |
3. 防重设计
1 | // 幂等性设计 - 数据库唯一索引 |
事中:实时资损发现
1. 实时对账系统
1 | 实时对账架构: |
2. 对账规则引擎
1 | // 对账规则定义 |
3. 异常告警分级
| 告警级别 | 触发条件 | 处理方式 |
|---|---|---|
| P0 紧急 | 金额差异 > 10万 或 差异笔数 > 100 | 立即电话 + 自动熔断 |
| P1 严重 | 金额差异 > 1万 或 差异笔数 > 10 | 钉钉 + 短信 |
| P2 一般 | 金额差异 > 1000 或 差异笔数 > 1 | 钉钉通知 |
| P3 提醒 | 存在差异记录 | 日报汇总 |
事后:止血与复盘
1. 资损止血 SOP
1 | 资损事件处理流程: |
2. 资损修复策略
| 场景 | 修复策略 | 注意事项 |
|---|---|---|
| 多扣用户 | 原路退款 + 补偿 | 需财务审批 |
| 少扣用户 | 评估是否追缴 | 金额较小可放弃 |
| 优惠券超发 | 标记失效 + 用户通知 | 已使用的认亏 |
| 数据不一致 | 以权威数据源为准修复 | 保留修复日志 |
资损防控度量指标
| 指标 | 计算方式 | 目标值 |
|---|---|---|
| 资损发现率 | 发现资损笔数 / 实际资损笔数 | > 99% |
| 发现时效 | 从发生到发现的平均时间 | < 5 分钟 |
| 止血时效 | 从发现到止血的平均时间 | < 10 分钟 |
| 修复率 | 已修复金额 / 资损总金额 | > 95% |
| 资损率 | 资损金额 / 交易总金额 | < 0.001% |
参考学习
风控体系
风控体系是保障业务安全的重要防线,主要应对欺诈、薅羊毛、恶意攻击等风险场景。一个完善的风控体系需要覆盖事前、事中、事后全链路。
风控场景分类
| 风险类型 | 典型场景 | 影响 |
|---|---|---|
| 账户风险 | 盗号、撞库、虚假注册 | 用户资产损失、平台信誉受损 |
| 交易风险 | 刷单、套现、恶意退款 | 资金损失、数据失真 |
| 营销风险 | 薅羊毛、优惠券滥用、黄牛 | 营销成本浪费 |
| 内容风险 | 垃圾信息、违规内容 | 合规风险、用户体验差 |
| 信用风险 | 恶意欠款、信用违约 | 坏账损失 |
风控系统架构
1 | ┌─────────────────┐ |
实时风控引擎设计
1. 规则引擎
规则引擎是风控系统的核心组件,支持灵活配置和动态更新。
1 | // 规则定义示例 |
2. 特征工程
| 特征类型 | 示例 | 计算方式 |
|---|---|---|
| 实时特征 | 用户当前IP、设备指纹 | 请求参数直接获取 |
| 滑动窗口特征 | 5分钟内登录次数 | Redis ZSET 滑动窗口 |
| 累计特征 | 历史消费总额、注册天数 | 用户画像服务 |
| 关联特征 | 同设备关联账号数 | 图数据库查询 |
| 模型特征 | 欺诈概率分数 | ML 模型实时推理 |
1 | // 滑动窗口特征计算 |
3. 机器学习模型
| 模型类型 | 适用场景 | 特点 |
|---|---|---|
| 规则模型 | 明确特征的欺诈行为 | 可解释性强,快速上线 |
| 有监督模型 | 有标签数据的场景 | XGBoost、LightGBM |
| 无监督模型 | 异常检测、新型欺诈 | Isolation Forest |
| 图模型 | 团伙欺诈、关联分析 | GNN、社区发现 |
风控决策流程
1 | 用户请求 → 数据采集 → 特征计算 → 规则引擎 → 模型推理 → 决策聚合 → 返回结果 |
决策聚合策略:
- 串行策略:规则先行,命中则直接返回
- 并行策略:规则 + 模型并行执行,综合评分
- 熔断策略:风控服务超时/异常时,根据业务重要性决定放行或拒绝
风控运营
1. 处置动作
| 处置动作 | 适用场景 | 用户体验 |
|---|---|---|
| 直接通过 | 低风险用户 | 无感知 |
| 人工审核 | 中风险,需人工判断 | 延迟处理 |
| 验证码挑战 | 疑似机器行为 | 轻度打扰 |
| 短信验证 | 账户安全验证 | 中度打扰 |
| 直接拒绝 | 高风险/黑名单 | 阻断 |
| 静默观察 | 采集数据不阻断 | 无感知 |
2. 效果度量
| 指标 | 定义 | 目标 |
|---|---|---|
| 拦截率 | 拦截的风险事件 / 实际风险事件 | > 95% |
| 误杀率 | 误拦正常用户 / 正常用户总数 | < 0.1% |
| 响应时间 | 风控请求 RT P99 | < 50ms |
| 覆盖率 | 接入风控的业务场景比例 | 100% |
3. 策略迭代
1 | 数据驱动的风控策略迭代闭环: |
风控体系建设参考
性能优化
性能优化是稳定性建设的重要组成部分。高性能不仅带来更好的用户体验,也能在流量高峰时提供更大的容量 Buffer,降低系统压力。
性能优化方法论
1. 性能优化原则
- 先测量,后优化:没有数据支撑的优化是盲目的
- 抓大放小:优先优化瓶颈点,遵循 80/20 法则
- 空间换时间:缓存、预计算、冗余存储
- 串行改并行:利用多核、异步化
- 减少 IO:批量处理、连接复用、数据压缩
2. 性能分析套路
1 | 性能问题定位流程: |
各层性能优化策略
1. 网络层优化
| 优化点 | 方案 | 效果 |
|---|---|---|
| 减少 RTT | CDN 加速、边缘计算 | 降低用户感知延迟 |
| 连接复用 | HTTP/2、连接池 | 减少建连开销 |
| 数据压缩 | Gzip、Brotli | 减少传输数据量 |
| 协议优化 | HTTP/3(QUIC) | 减少队头阻塞 |
2. 应用层优化
a) 缓存优化
1 | 缓存层级: |
1 | // 多级缓存读取示例 |
b) 并发优化
1 | // 串行调用 → 并行调用 |
c) 批量处理
1 | // 单条查询 → 批量查询 |
3. 数据库优化
a) SQL 优化
| 问题 | 优化方案 |
|---|---|
| 无索引/索引失效 | 添加合适索引,避免索引失效场景 |
| **SELECT *** | 只查需要的字段 |
| 大事务 | 拆分小事务,减少锁持有时间 |
| 深分页 | 游标分页(WHERE id > last_id LIMIT 10) |
| N+1 查询 | JOIN 或批量查询 |
b) 索引优化原则
1 | -- 联合索引最左前缀 |
c) 读写分离
1 | ┌─────────────┐ |
4. JVM/GC 优化(Java)
| 优化点 | 方案 |
|---|---|
| 堆内存 | 根据业务特点设置合理大小 |
| GC 算法 | G1/ZGC 替代 CMS |
| 对象池 | 复用大对象,减少 GC 压力 |
| 逃逸分析 | 栈上分配,减少堆分配 |
5. Go 性能优化
1 | // 1. sync.Pool 复用对象 |
性能测试与监控
1. 压测类型
| 类型 | 目的 | 场景 |
|---|---|---|
| 基准测试 | 获取单接口性能基线 | 新接口上线前 |
| 负载测试 | 验证目标 QPS 下表现 | 常规压测 |
| 压力测试 | 找到系统极限 | 容量评估 |
| 稳定性测试 | 长时间运行是否稳定 | 内存泄漏排查 |
| 全链路压测 | 真实场景模拟 | 大促前 |
2. 性能指标
| 指标 | 含义 | 目标参考 |
|---|---|---|
| QPS/TPS | 每秒请求/事务数 | 根据业务目标 |
| RT(P50/P95/P99) | 响应时间分位值 | P99 < 500ms |
| 错误率 | 失败请求占比 | < 0.1% |
| CPU 使用率 | 计算资源占用 | < 70%(留 Buffer) |
| 内存使用率 | 内存资源占用 | < 80% |
| GC 频率/耗时 | 垃圾回收影响 | Full GC < 1次/天 |
性能优化案例
案例:接口 RT 从 500ms 优化到 50ms
1 | 问题:商品详情接口 P99 RT = 500ms |
SLI/SLO/SLA 体系
概念定义
| 概念 | 全称 | 定义 |
|---|---|---|
| SLI | Service Level Indicator | 服务质量指标,可量化的度量值 |
| SLO | Service Level Objective | 服务质量目标,SLI 的目标值 |
| SLA | Service Level Agreement | 服务等级协议,对外承诺 |
1 | 关系:SLI(指标)→ SLO(目标)→ SLA(协议) |
常用 SLI 指标
| 指标类型 | SLI 定义 | SLO 示例 |
|---|---|---|
| 可用性 | 成功请求数 / 总请求数 | > 99.9% |
| 延迟 | 请求耗时分位值 | P99 < 200ms |
| 吞吐量 | 单位时间处理请求数 | > 10000 QPS |
| 正确性 | 返回正确结果的比例 | > 99.99% |
| 新鲜度 | 数据更新延迟 | < 5 分钟 |
Error Budget(错误预算)
Error Budget 是 SRE 的核心概念,用于平衡可靠性与迭代速度。
1 | Error Budget = 1 - SLO |
Error Budget 策略:
- Budget 充足:允许激进发布,快速迭代
- Budget 紧张:减缓发布节奏,增加测试
- Budget 耗尽:冻结发布,全力修复
混沌工程
混沌工程是一种通过主动注入故障来验证系统韧性的实践方法。
混沌工程原则
- 建立稳态假设:定义系统正常运行的指标
- 多样化真实事件:模拟生产环境的各种故障
- 在生产环境运行:测试环境无法完全模拟生产
- 自动化持续运行:纳入 CI/CD 流水线
- 最小化爆炸半径:从小范围开始,逐步扩大
故障注入类型
| 故障类型 | 注入方式 | 验证目标 |
|---|---|---|
| 进程故障 | Kill 进程、OOM | 服务自愈、故障切换 |
| 网络故障 | 延迟、丢包、断网 | 超时处理、重试机制 |
| 依赖故障 | Mock 下游返回错误 | 降级策略、熔断机制 |
| 资源耗尽 | CPU 打满、磁盘填满 | 限流、告警 |
| 时钟偏移 | NTP 故障模拟 | 时间敏感逻辑 |
混沌实验流程
1 | ┌─────────────────────────────────────────────────────┐ |
混沌工程工具
| 工具 | 适用场景 | 特点 |
|---|---|---|
| ChaosBlade | 多平台通用 | 阿里开源,支持丰富故障场景 |
| Chaos Monkey | AWS/云环境 | Netflix 开源,随机终止实例 |
| LitmusChaos | Kubernetes | CNCF 项目,云原生 |
| Gremlin | 企业级 | 商业产品,功能全面 |
变更管理
变更是系统故障的主要来源。Google SRE 统计显示,70% 的故障与变更相关。
变更类型
| 变更类型 | 风险等级 | 审批要求 |
|---|---|---|
| 代码发布 | 高 | CR + 灰度 |
| 配置变更 | 中-高 | 双人审批 |
| DB Schema 变更 | 高 | DBA 审批 |
| 基础设施变更 | 高 | 架构组审批 |
| 依赖升级 | 中 | 兼容性测试 |
安全变更原则
- 可回滚:任何变更必须有回滚方案
- 可观测:变更前后有明确的监控指标
- 渐进式:灰度发布,逐步放量
- 自动化:减少人工操作失误
- 时间窗口:避开业务高峰期
灰度发布策略
1 | 灰度发布流程: |
On-Call 实践
On-Call 是 SRE/运维团队的核心职责,负责生产环境的故障响应。
On-Call 轮值设计
| 维度 | 最佳实践 |
|---|---|
| 轮值周期 | 一周为单位,避免过长导致疲劳 |
| 人员配置 | 主备双人制,避免单点 |
| 交接 | 详细的 Handoff 文档 |
| 补偿 | 调休或补贴 |
On-Call 响应流程
1 | 告警触发 |
On-Call 减负措施
- 消除噪音告警:合并重复告警,优化阈值
- 自动化修复:常见问题自动处理(如磁盘清理)
- 完善 Runbook:标准化处理流程
- 定期演练:保持团队能力
学习资料
书籍:
文章:
工具:
- Prometheus - 监控系统
- Grafana - 可视化
- PagerDuty - 告警管理
- ChaosBlade - 混沌工程