Skip to content

Harness 最佳实践

1. 场景小而稳

每个场景只验证一个能力点,避免“一个失败全盘失败”。

2. 评估器组合

不要只用单一评估器;推荐 contains + no-error + json-valid 组合。

3. Mock 优先

日常回归用 Mock,真实 API 仅做冒烟。

4. 指标可追踪

至少追踪三项:

  • 通过率
  • 平均时延
  • 回归失败 Top3 原因

5. 失败可诊断

每次失败保留:输入、模型输出、评估器细节、环境信息。

常见错误

  • 场景写得太泛,无法定位问题
  • 只看通过率,不看失败分布
  • 评估器阈值过高或过低

基于 MIT 许可发布