用 AI 给故障复盘打分:质量审核自动化实践
一、为什么复盘质量普遍不高
每次线上故障之后,团队都会写复盘报告,列出"优化措施"。形式上看起来很完整,但仔细读下去,会发现大量这样的内容:
- “加强研发规范意识,避免类似问题再次发生”
- “相关同学注意配置变更前做好充分测试”
- “后续优化监控告警策略,提升感知能力”
这些措施写了和没写没有区别。没有 Owner,没有截止时间,没有可验证的完成标准,更关键的是——和故障的根因没有直接关系。
为什么会这样?根本原因是:评审标准不显式,执行靠经验和感觉。
审核者知道这条措施"不够好",但很难说清楚哪里不好、应该怎么改。被审核者不知道标准在哪,只能凭感觉写。久而久之,复盘变成了走流程,优化措施成了"填空题"。
二、9 条评审原则:让标准显式化
要解决这个问题,第一步是把评审标准显式化——用具体、可操作的规则替代模糊的"写得好不好"判断。
我把复盘优化措施的质量评审拆成 9 条原则(P1~P9):
| 代码 | 原则 | 核心问题 |
|---|---|---|
| P1 | 具体明确 | 有没有"加强/注意/优化/完善"等模糊词? |
| P2 | 可执行 | 有没有明确动作 + 单一责任人 + 可判断完成的标准? |
| P3 | 可验证 | 验收方式是否客观可查(文档/截图/CI结果)? |
| P4 | 分类清晰 | 多条子措施是否按流程/技术/人员/监控归类? |
| P5 | 时效性 | 是否有精确截止日期(精确到天)? |
| P6 | 根因对应 | 整改措施能否直接切断根因链? |
| P7 | 覆盖面 | 是否形成通用机制,而非只修了本次? |
| P8 | 防复发机制 | 有没有卡点/门禁/自动化检测? |
| P9 | Owner 唯一 | 每条子措施只能有一个 Owner |
这 9 条原则中,最核心的是三角关系:
根因对应(P6)× 可执行(P2)× 可验证(P3)一条合格的优化措施,必须同时满足这三个条件:针对根因、有人负责能执行、完成后能验证。任何一条缺失,这个措施的实际价值就大打折扣。
三、自动化审核流程
有了显式的标准,下一步是自动化执行。整个流程分四个阶段:
3.1 数据提取
从故障复盘 Excel 中提取结构化数据。每条故障记录包含四个关键字段:
- 问题描述:故障现象和影响范围
- 问题原因:直接根因(P6 判断的核心依据)
- 处理进展:应急处置时间线(暴露的二次问题也要整改)
- 优化措施:审核目标
python3 extract_from_excel.py --file postmortem.xlsx --sheet 202603 --output measures.json3.2 规则预检
在 LLM 审核之前,先用规则引擎做自动预检,快速识别明显问题:
- P1 模糊词检测:正则匹配"加强/注意/优化/完善/强化/落实"等词
- P5 时间缺失检测:判断是否有"YYYY-MM-DD"格式日期
- P9 Owner 检测:判断是否存在"团队/大家/相关同学"等多人表述
预检可以过滤掉 60%~70% 的明显不合格项,减少 LLM 的处理量,也让后续的深度审核更聚焦。
3.3 LLM 深度审核
规则预检覆盖不了语义层面的问题,比如"整改措施和根因是否对应"(P6)、“覆盖面是否足够”(P7),这些需要理解上下文。
LLM 审核的关键是建立正确的上下文:先读问题描述和根因,再审核优化措施。
以一个真实脱敏案例为例:
原始措施:
研发同学加强变更规范意识,后续变更操作前做好充分测试验证。
根因:
配置项缺少格式校验,变更时未触发自动化测试流程。
这条措施违反了 P1(模糊词"加强")、P2(无 Owner、无截止日期)、P5(无日期)、P6(根因是缺少技术卡点,措施却是教育意识,根本没有对应)。
LLM 生成的改写建议:
由
<Owner>在2026-04-15前,为配置项变更接口增加格式校验逻辑,并在 CI 流水线中加入配置项变更的自动化测试门禁。
- 完成标准:CI 门禁上线,历史配置项的格式校验覆盖率 ≥ 95%
- 验收方式:提交 CI 配置变更 PR 链接 + 测试报告截图,由
<技术 lead>确认- 防复发:门禁阻断不合规变更,覆盖范围:全业务同类配置项
改写建议不是"建议修改",而是直接给出可复制替换的版本,研发同学改一下 Owner 和日期就能用。
3.4 输出报告
最终生成 Excel 报告,包含:
- 每条措施的逐项 P1~P9 评分
- 改写建议(可直接使用)
- 统计摘要:不合格率、高频违反原则 Top3
- 总体结论:通过 / 条件通过 / 退回修改
判定规则:
| 总体结论 | 触发条件 |
|---|---|
| ✅ 通过 | 不合格率 < 10% 且无严重 P6 问题 |
| ⚠️ 条件通过 | 不合格率 10%~30%,或有 P6 问题 |
| ❌ 退回修改 | 不合格率 ≥ 30%,或任意一条同时违反 P1+P2+P5 |
四、实际效果
在实际使用中,这套方案有几个明显的价值:
1. 审核标准统一
不同审核者对同一条措施的判断结果趋于一致,减少了"凭感觉"的主观差异。
2. 改写建议质量高
原来人工审核只能说"这条不好,请修改",现在直接给出改好的版本,修改成本大幅降低,研发同学更愿意认真对待。
3. 发现了 P6 是最高频违反原则
统计下来,根因对应(P6)是最常见的问题——大量措施在解决"表象"而非"根因"。这个发现本身就很有价值:说明团队在根因分析环节还不够深入,光治措施质量还不够,根因分析能力也需要提升。
五、延伸思考:复盘质量是工程文化的晴雨表
一个团队的复盘质量,其实是工程文化的晴雨表。
- 措施写得具体可执行 → 团队认真对待故障,愿意投入资源治理
- 措施流于形式 → 复盘是走流程,没有人真正相信它能防止下次故障
AI 在这里扮演的角色,不是替代人做判断,而是让标准显式化、让执行自动化。
标准显式化的价值在于:一旦评审规则变成文档和代码,所有人都知道"好的措施长什么样",新人也能快速对齐。
执行自动化的价值在于:人工审核是高重复劳动,容易疲劳、容易妥协。自动化不会累,不会因为"这个团队比较忙"就降低标准。
最终目标不是让机器打分,而是让复盘真正有效——每条优化措施都落地,每次故障都不白经历。
这套方案目前作为 OpenClaw 的一个 Skill 在使用,输入故障复盘 Excel,几分钟内输出审核报告。如果你的团队也有类似的质量管理需求,思路是通用的:把专家经验提炼成结构化规则,用 LLM 处理语义层面的判断,用脚本处理格式和输出。
六、当前限制与未来方向
目前这套方案的使用流程还有一定的手工成本:从系统中导出故障信息,让团队成员在企微在线文档里填写复盘内容,审核完成后再将在线文档导出成 Excel,最后交给 AI 做分析。
这个"导出 → 分析"的中间环节,本质上是因为 AI 与企微在线文档之间还没有打通。所有信息都在文档里,但 AI 只能处理导出后的 Excel 文件。
如果未来 AI 能直接读取企微在线文档的内容,整个流程就可以进一步简化:团队填完复盘文档后,直接触发 AI 审核,无需任何导出操作。这不只是省了一个步骤,更重要的是把审核时机提前——可以在复盘会议结束的当天就给出反馈,而不是等人工整理完 Excel 之后。
这也是 AI 与企业内部系统深度集成的一个典型方向:不是替换现有工具,而是在现有工具之间搭桥,让数据流动起来,让质量反馈更及时。