核心评估评估方法在 UI 中打分

通过 UI 手动打分

通过 UI 添加分数是一种人工评估方法。它用于协作式地为 trace、会话和 observation 添加评估分数。

你也可以使用标注队列来更高效地审阅大批量的 trace、会话和 observation。

为什么要通过 UI 手动添加分数?

  • 让多名团队成员手动审阅数据,借助多元化专长提升准确性。
  • 标准化的分数配置和评分标准,确保不同工作流和评分类型下的标注一致性。
  • 人工基线为其他分数提供基准,并便于从生产日志中筛选出高质量的数据集。

一步步设置

创建一个分数配置

要在 UI 中添加分数,至少需要配置一个分数配置。详见如何创建和管理分数配置

添加分数

在 Trace、Session 或 Observation 详情页点击 Annotate 打开标注表单。

Annotate

选择要使用的分数配置

Annotate

设置分数值

Annotate

查看分数

要在 trace 或 observation 上查看新添加的分数,在 trace 或 observation 详情页中点击 Scores 标签页。

Detail scores table

给实验添加分数

当你通过 UI 运行实验或通过 SDK 运行实验时,可以直接在实验对比视图中标注结果。

前置条件:

  • 为你想评估的维度设置好分数配置
  • 通过 UISDK 执行一次实验,生成可供审阅的结果

Annotate from compare view

对比视图保留了完整的实验上下文:输入、输出和自动化分数都会在你审阅每一项时保持可见。汇总指标会随着你添加标注分数而更新,方便你跟踪整个实验的进度。

这个页面对你有帮助吗?