Skip to content

评测与质量

评测的目标不是给 AI 输出打一个抽象分数,而是判断它是否满足可发布的验收标准。

评测层级

层级问题常用证据
单例检查一个输入是否得到正确输出fixture、快照、断言
场景检查一个工作流是否完整Harness scenario、trace
回归检查旧行为是否被破坏测试套件、链接审计
发布检查是否适合公开发布构建、可访问性、内容审查

Evaluator 设计

好的 evaluator 应该:

  • 只评估一个明确标准。
  • 给出失败原因,而不是只给分。
  • 能处理边界输入。
  • 与人工验收标准对齐。
  • 在模型或 prompt 变化后仍然稳定。

文档站质量门禁

本项目的文档发布至少需要:

bash
npm run docs:build
npm run docs:check-links

还需要人工检查:

  • 首页首屏是否清晰。
  • 移动端是否溢出。
  • 中英文导航是否完整。
  • 新页面是否包含概念、步骤、练习、排错和下一步。

练习

为一个“新增 MCP 教程页”的 PR 写 5 条验收标准,并把其中 2 条转成自动检查。

下一步阅读 部署与安全

基于 MIT 许可发布