Evaluators 使用指南
Evaluators 用于自动判断 AI 输出是否达标。
常用评估器
| Evaluator | 作用 | 典型场景 |
|---|---|---|
contains | 包含关键内容 | 教程解释类输出 |
exact-match | 精确匹配 | 固定格式输出 |
json-valid | JSON 合法性 | 工具调用结果 |
no-error | 不含错误词 | 稳定性检查 |
semantic-match | 语义近似 | 自然语言答案 |
组合评估
推荐组合多个 evaluator,降低误判。
json
{
"evaluators": ["contains", "json-valid", "no-error"]
}阈值建议
semantic-match: 0.75~0.85contains: 关键关键词 2~5 个
失败诊断
先看“缺词”还是“格式”问题,再调整 prompt 或样例。