简体中文
Appearance
每个场景只验证一个能力点,避免“一个失败全盘失败”。
不要只用单一评估器;推荐 contains + no-error + json-valid 组合。
contains + no-error + json-valid
日常回归用 Mock,真实 API 仅做冒烟。
至少追踪三项:
每次失败保留:输入、模型输出、评估器细节、环境信息。