评测与质量

评测的目标不是给 AI 输出打一个抽象分数，而是判断它是否满足可发布的验收标准。

评测层级

层级	问题	常用证据
单例检查	一个输入是否得到正确输出	fixture、快照、断言
场景检查	一个工作流是否完整	Harness scenario、trace
回归检查	旧行为是否被破坏	测试套件、链接审计
发布检查	是否适合公开发布	构建、可访问性、内容审查

Evaluator 设计

好的 evaluator 应该：

只评估一个明确标准。
给出失败原因，而不是只给分。
能处理边界输入。
与人工验收标准对齐。
在模型或 prompt 变化后仍然稳定。

文档站质量门禁

本项目的文档发布至少需要：

bash

npm run docs:build
npm run docs:check-links

还需要人工检查：

首页首屏是否清晰。
移动端是否溢出。
中英文导航是否完整。
新页面是否包含概念、步骤、练习、排错和下一步。

练习

为一个“新增 MCP 教程页”的 PR 写 5 条验收标准，并把其中 2 条转成自动检查。

下一步阅读部署与安全。