Harness 最佳实践

1. 场景小而稳

每个场景只验证一个能力点，避免“一个失败全盘失败”。

2. 评估器组合

不要只用单一评估器；推荐 contains + no-error + json-valid 组合。

3. Mock 优先

日常回归用 Mock，真实 API 仅做冒烟。

4. 指标可追踪

至少追踪三项：

通过率
平均时延
回归失败 Top3 原因

5. 失败可诊断

每次失败保留：输入、模型输出、评估器细节、环境信息。

常见错误

场景写得太泛，无法定位问题
只看通过率，不看失败分布
评估器阈值过高或过低