Trace 评分是为智能体的 trace(即包含决策、工具调用和推理步骤的端到端日志)分配结构化分数或标签的过程,旨在评估其正确性、质量或是否符合预期。这些标注有助于明确智能体在哪些方面表现良好,在哪些方面出现了错误,从而支持对编排逻辑或行为进行针对性的改进。
Trace 评估利用这些经过评分的 trace,在大量样本中系统化地评估智能体的表现,帮助对各项改动进行基准测试、识别性能退化或验证优化效果。与黑盒评估不同,Trace 评估提供了更丰富的数据,有助于深入理解智能体成功或失败的根因。
综合使用这两项功能,可以跟踪、分析和优化智能体群组的性能。
开始使用 trace
- 在控制台中,导航至 Logs > 轨迹.
- 选择一个工作流。您将看到您在以下位置创建的任何工作流的日志 智能体构建器.
- 选择一个 trace 以检查您的工作流。
- 创建评分器,并运行它以根据评分器标准对智能体的性能进行评分。
Trace 评分是大规模进行错误识别的重要工具,这对于提升 AI 应用的健壮性至关重要。请在我们推荐的流程中了解更多详情,请访问我们的 示例代码.
使用 runs 评估 trace
- 选择 全部评分。这将带你进入评估仪表板。
- 在评估控制台中,添加和编辑测试标准。
- 添加一个 run 以评估输出结果。您可以配置 run 选项,例如模型、日期范围和工具调用,从而在评估中获得更精确的筛选条件。
进一步了解如何使用 evals 此处.