用 AI 给故障复盘打分：质量审核自动化实践

一、为什么复盘质量普遍不高

每次线上故障之后，团队都会写复盘报告，列出"优化措施"。形式上看起来很完整，但仔细读下去，会发现大量这样的内容：

“加强研发规范意识，避免类似问题再次发生”
“相关同学注意配置变更前做好充分测试”
“后续优化监控告警策略，提升感知能力”

这些措施写了和没写没有区别。没有 Owner，没有截止时间，没有可验证的完成标准，更关键的是——和故障的根因没有直接关系。

为什么会这样？根本原因是：评审标准不显式，执行靠经验和感觉。

审核者知道这条措施"不够好"，但很难说清楚哪里不好、应该怎么改。被审核者不知道标准在哪，只能凭感觉写。久而久之，复盘变成了走流程，优化措施成了"填空题"。

二、9 条评审原则：让标准显式化

要解决这个问题，第一步是把评审标准显式化——用具体、可操作的规则替代模糊的"写得好不好"判断。

我把复盘优化措施的质量评审拆成 9 条原则（P1～P9）：

代码	原则	核心问题
P1	具体明确	有没有"加强/注意/优化/完善"等模糊词？
P2	可执行	有没有明确动作 + 单一责任人 + 可判断完成的标准？
P3	可验证	验收方式是否客观可查（文档/截图/CI结果）？
P4	分类清晰	多条子措施是否按流程/技术/人员/监控归类？
P5	时效性	是否有精确截止日期（精确到天）？
P6	根因对应	整改措施能否直接切断根因链？
P7	覆盖面	是否形成通用机制，而非只修了本次？
P8	防复发机制	有没有卡点/门禁/自动化检测？
P9	Owner 唯一	每条子措施只能有一个 Owner

这 9 条原则中，最核心的是三角关系：

根因对应（P6）× 可执行（P2）× 可验证（P3）

一条合格的优化措施，必须同时满足这三个条件：针对根因、有人负责能执行、完成后能验证。任何一条缺失，这个措施的实际价值就大打折扣。

三、自动化审核流程

有了显式的标准，下一步是自动化执行。整个流程分四个阶段：

3.1 数据提取

从故障复盘 Excel 中提取结构化数据。每条故障记录包含四个关键字段：

问题描述：故障现象和影响范围
问题原因：直接根因（P6 判断的核心依据）
处理进展：应急处置时间线（暴露的二次问题也要整改）
优化措施：审核目标

python3 extract_from_excel.py --file postmortem.xlsx --sheet 202603 --output measures.json

3.2 规则预检

在 LLM 审核之前，先用规则引擎做自动预检，快速识别明显问题：

P1 模糊词检测：正则匹配"加强/注意/优化/完善/强化/落实"等词
P5 时间缺失检测：判断是否有"YYYY-MM-DD"格式日期
P9 Owner 检测：判断是否存在"团队/大家/相关同学"等多人表述

预检可以过滤掉 60%～70% 的明显不合格项，减少 LLM 的处理量，也让后续的深度审核更聚焦。

3.3 LLM 深度审核

规则预检覆盖不了语义层面的问题，比如"整改措施和根因是否对应"（P6）、“覆盖面是否足够”（P7），这些需要理解上下文。

LLM 审核的关键是建立正确的上下文：先读问题描述和根因，再审核优化措施。

以一个真实脱敏案例为例：

原始措施：

研发同学加强变更规范意识，后续变更操作前做好充分测试验证。

根因：

配置项缺少格式校验，变更时未触发自动化测试流程。

这条措施违反了 P1（模糊词"加强"）、P2（无 Owner、无截止日期）、P5（无日期）、P6（根因是缺少技术卡点，措施却是教育意识，根本没有对应）。

LLM 生成的改写建议：

由 <Owner> 在 2026-04-15 前，为配置项变更接口增加格式校验逻辑，并在 CI 流水线中加入配置项变更的自动化测试门禁。

完成标准：CI 门禁上线，历史配置项的格式校验覆盖率 ≥ 95%

验收方式：提交 CI 配置变更 PR 链接 + 测试报告截图，由 <技术 lead> 确认

防复发：门禁阻断不合规变更，覆盖范围：全业务同类配置项

改写建议不是"建议修改"，而是直接给出可复制替换的版本，研发同学改一下 Owner 和日期就能用。

3.4 输出报告

最终生成 Excel 报告，包含：

每条措施的逐项 P1～P9 评分
改写建议（可直接使用）
统计摘要：不合格率、高频违反原则 Top3
总体结论：通过 / 条件通过 / 退回修改

判定规则：

总体结论	触发条件
✅ 通过	不合格率 < 10% 且无严重 P6 问题
⚠️ 条件通过	不合格率 10%～30%，或有 P6 问题
❌ 退回修改	不合格率 ≥ 30%，或任意一条同时违反 P1+P2+P5

四、实际效果

在实际使用中，这套方案有几个明显的价值：

1. 审核标准统一

不同审核者对同一条措施的判断结果趋于一致，减少了"凭感觉"的主观差异。

2. 改写建议质量高

原来人工审核只能说"这条不好，请修改"，现在直接给出改好的版本，修改成本大幅降低，研发同学更愿意认真对待。

3. 发现了 P6 是最高频违反原则

统计下来，根因对应（P6）是最常见的问题——大量措施在解决"表象"而非"根因"。这个发现本身就很有价值：说明团队在根因分析环节还不够深入，光治措施质量还不够，根因分析能力也需要提升。

五、延伸思考：复盘质量是工程文化的晴雨表

一个团队的复盘质量，其实是工程文化的晴雨表。

措施写得具体可执行 → 团队认真对待故障，愿意投入资源治理
措施流于形式 → 复盘是走流程，没有人真正相信它能防止下次故障

AI 在这里扮演的角色，不是替代人做判断，而是让标准显式化、让执行自动化。

标准显式化的价值在于：一旦评审规则变成文档和代码，所有人都知道"好的措施长什么样"，新人也能快速对齐。

执行自动化的价值在于：人工审核是高重复劳动，容易疲劳、容易妥协。自动化不会累，不会因为"这个团队比较忙"就降低标准。

最终目标不是让机器打分，而是让复盘真正有效——每条优化措施都落地，每次故障都不白经历。

这套方案目前作为 OpenClaw 的一个 Skill 在使用，输入故障复盘 Excel，几分钟内输出审核报告。如果你的团队也有类似的质量管理需求，思路是通用的：把专家经验提炼成结构化规则，用 LLM 处理语义层面的判断，用脚本处理格式和输出。

六、当前限制与未来方向

目前这套方案的使用流程还有一定的手工成本：从系统中导出故障信息，让团队成员在企微在线文档里填写复盘内容，审核完成后再将在线文档导出成 Excel，最后交给 AI 做分析。

这个"导出 → 分析"的中间环节，本质上是因为 AI 与企微在线文档之间还没有打通。所有信息都在文档里，但 AI 只能处理导出后的 Excel 文件。

如果未来 AI 能直接读取企微在线文档的内容，整个流程就可以进一步简化：团队填完复盘文档后，直接触发 AI 审核，无需任何导出操作。这不只是省了一个步骤，更重要的是把审核时机提前——可以在复盘会议结束的当天就给出反馈，而不是等人工整理完 Excel 之后。

这也是 AI 与企业内部系统深度集成的一个典型方向：不是替换现有工具，而是在现有工具之间搭桥，让数据流动起来，让质量反馈更及时。