评测与质量
评测的目标不是给 AI 输出打一个抽象分数,而是判断它是否满足可发布的验收标准。
评测层级
| 层级 | 问题 | 常用证据 |
|---|---|---|
| 单例检查 | 一个输入是否得到正确输出 | fixture、快照、断言 |
| 场景检查 | 一个工作流是否完整 | Harness scenario、trace |
| 回归检查 | 旧行为是否被破坏 | 测试套件、链接审计 |
| 发布检查 | 是否适合公开发布 | 构建、可访问性、内容审查 |
Evaluator 设计
好的 evaluator 应该:
- 只评估一个明确标准。
- 给出失败原因,而不是只给分。
- 能处理边界输入。
- 与人工验收标准对齐。
- 在模型或 prompt 变化后仍然稳定。
文档站质量门禁
本项目的文档发布至少需要:
bash
npm run docs:build
npm run docs:check-links还需要人工检查:
- 首页首屏是否清晰。
- 移动端是否溢出。
- 中英文导航是否完整。
- 新页面是否包含概念、步骤、练习、排错和下一步。
练习
为一个“新增 MCP 教程页”的 PR 写 5 条验收标准,并把其中 2 条转成自动检查。
下一步阅读 部署与安全。