核心评估评估方法分数分析

分数分析

分数分析提供了一种轻量、零配置的方式,让你开箱即用地分析评估数据。无论你是在验证不同 LLM judge 是否产出一致结果、检查人工标注与自动化评估的对齐情况,还是在探索分数分布和趋势,分数分析都能帮你建立对评估流程的信心。

为什么使用分数分析?

分数分析是对 Litefuse 实验 SDK自助仪表盘的补充,提供即时、零配置的分数分析能力:

  • 轻量配置:无需配置 —— 分数接入后立刻就可以分析
  • 快速验证:比较不同来源的分数(例如 GPT-4 与 Gemini 作为 judge),衡量一致性、确保可靠性
  • 开箱即用的洞察:可视化分布、跟踪趋势、发现相关性,无需自定义仪表盘
  • 统计严谨:提供 Pearson 相关系数、Cohen’s Kappa、F1 等指标,并附带解读说明

对于需要自定义指标或复杂比较的高级分析,请使用实验 SDK 进行更深入的研究。

快速开始

前置条件

确保你的 Litefuse 项目中已经有分数数据,可以来自任意一种评估方法:

进入分数分析

  1. 在 Litefuse 中进入你的项目
  2. 在导航菜单中点击 Scores
  3. 选择 Analytics 标签页

分析单个分数

  1. 在第一个下拉菜单中选择一个分数
  2. 选择要分析的对象类型(Traces、Observations、Sessions 或 Dataset Run Items)
  3. 用日期选择器设置时间范围(例如近 90 天)
  4. 查看统计卡片中的总数量、均值/众数和标准差
  5. 浏览分布图表,查看分数值的散布情况
  6. 检查趋势图,跟踪时间维度上的变化

Single Score Analysis

比较两个分数

  1. 在第二个下拉菜单中选择第二个分数(必须是同一数据类型)
  2. 查看统计卡片中的对比指标:
    • 匹配数量(关联到同一父对象的分数)
    • 相关性指标(Pearson、Spearman)
    • 误差指标(数值型分数的 MAE、RMSE)
    • 一致性指标(分类/布尔型的 Cohen’s Kappa、F1、整体一致率)
  3. 检查分数比较热力图:
    • 强对角线模式表明一致性良好
    • 反对角线模式表明负相关
    • 散乱模式说明对齐度低
  4. 在 matched 与 all 标签页中比较分布
  5. 跟踪两个分数随时间的趋势

Boolean Score Comparison

关键特性

多种数据类型支持

分数分析会根据分数的数据类型自动调整可视化和指标:

数值型分数(连续值,例如 1-10 的评分)

  • 分布:10 个分桶的直方图,展示数值范围
  • 比较:10×10 热力图,展示相关性模式
  • 指标:Pearson 相关系数、Spearman 相关系数、MAE(平均绝对误差)、RMSE(均方根误差)

分类型分数(离散类别,如 “good/bad/neutral”)

  • 分布:每个类别一个柱形的柱状图
  • 比较:N×M 混淆矩阵,展示类别如何对齐
  • 指标:Cohen’s Kappa、F1 分数、整体一致率

布尔型分数(true/false 二值)

  • 分布:两个类别的柱状图
  • 比较:2×2 混淆矩阵
  • 指标:Cohen’s Kappa、F1 分数、整体一致率

匹配数据 vs 全量数据

分数分析提供两种视图来理解你的数据:

匹配数据(默认标签页)

  • 只显示同时拥有所选两个分数的父对象(trace、observation、会话或数据集运行条目)
  • 让评估方法之间的比较有效
  • 当两个分数指向同一父对象时即视为匹配
  • 用此视图衡量一致性和相关性

全量数据(单个分数标签页)

  • 独立显示每个分数的完整分布
  • 揭示评估覆盖度(多少父对象有该分数)
  • 帮助识别评估策略中的空白

时间维度分析

趋势图帮你监控分数模式,包含以下能力:

  • 可配置的间隔:从分钟到年(5m、30m、1h、3h、1d、7d、30d、90d、1y)
  • 自动选择间隔:根据所选时间范围智能给出默认值
  • 空缺补齐:缺失的时间段补 0,可视化更连贯
  • 平均值计算:副标题展示该时间段的总体平均

统计指标

分数分析提供业内标准的统计指标,并附带解读说明:

相关性指标(数值型分数)

Pearson 相关系数:衡量两个分数之间的线性关系。取值范围 -1(完全负相关)到 1(完全正相关)。

  • 0.9-1.0:非常强相关
  • 0.7-0.9:强相关
  • 0.5-0.7:中等相关
  • 低于 0.5:弱相关

Spearman 相关系数:衡量单调关系(基于秩)。比 Pearson 更稳健,对离群值不敏感。

误差指标(数值型分数)

MAE(平均绝对误差):分数差的绝对值的平均,越低越好。

RMSE(均方根误差):差值平方平均后再开方,比 MAE 对较大误差惩罚更重。

一致性指标(分类/布尔型分数)

Cohen’s Kappa:考虑随机一致性后的一致性度量。取值范围 -1 到 1。

  • 0.81-1.0:几乎完全一致
  • 0.61-0.80:高度一致
  • 0.41-0.60:中等一致
  • 低于 0.41:一般到弱一致

F1 分数:精确率和召回率的调和平均,取值范围 0 到 1,1 为完美。

整体一致率:分类一致样本所占的简单百分比,未对随机一致进行调整。

示例用例

验证 LLM judge 可靠性

场景:你同时使用 GPT-4 和 Gemini 评估有用性。它们的结果是否一致?

工作流

  1. 选择 “helpfulness_gpt4-NUMERIC-EVAL” 作为分数 1
  2. 选择 “helpfulness_gemini-NUMERIC-EVAL” 作为分数 2
  3. 查看统计卡片:Pearson 相关系数 0.984,标记为 “Very Strong”
  4. 检查热力图:强对角线模式确认对齐
  5. 结果:两个 judge 高度一致,你的评估是可靠的

人工与 AI 标注一致性

场景:你有人工标注和 AI 评估两套质量分数,能否信任 AI?

工作流

  1. 选择 “quality-CATEGORICAL-ANNOTATION” 作为分数 1
  2. 选择 “quality-CATEGORICAL-EVAL” 作为分数 2
  3. 查看混淆矩阵:强对角线说明一致性良好
  4. 查看 Cohen’s Kappa:0.85 表示 “几乎完全一致”
  5. 结果:AI 评估与人工判断对齐良好

识别负相关

场景:理解应用中不同行为之间的关系

工作流

  1. 选择 “has_tool_use-BOOLEAN-EVAL” 作为分数 1
  2. 选择 “has_hallucination-BOOLEAN-EVAL” 作为分数 2
  3. 观察混淆矩阵:反对角线模式
  4. 结果:当你的 agent 使用工具时,幻觉发生频率更低

跟踪评估覆盖度

场景:你的评估数据完整度如何?

工作流

  1. 选择任意一个分数
  2. 在分布中比较 “all” 标签页与 “matched” 标签页
  3. 查看总数:1,143 个分数 1 的样本 vs 567 对匹配的样本
  4. 结果:识别出大约 50% 的父对象同时拥有两个分数

检测质量回归

场景:最近一次部署后模型质量是否下降?

工作流

  1. 选择一个质量或性能分数
  2. 把时间范围设置为覆盖部署前后两段时期
  3. 查看趋势图中是否出现下滑或变化
  4. 结果:快速发现质量回归并定位根因

当前限制

⚠️

Beta 功能:分数分析当前处于 Beta 阶段,欢迎反馈问题与建议。

当前约束

  • 最多两个分数:当前一次最多比较两个分数。多向比较请用两两分析的方式完成。
  • 仅同类型可比:只能在相同数据类型的分数之间比较(数值型对数值型、分类型对分类型、布尔型对布尔型)。
  • 采样:为优化性能,预期返回 >100k 分数(任一侧)的查询会自动应用随机采样。这种采样近似真随机采样,能保持数据的统计性质。在采样生效时会有可见提示,如果你需要完整数据集,可以通过时间范围或对象类型筛选缩小分析范围。

技巧与最佳实践

选择要比较的分数

  • 只能比较同一数据类型的分数
  • 不同量纲的分数也可以比较,但误差指标(MAE、RMSE)会受量纲差异影响
  • 选择评估相似维度的分数才会得到有意义的对比

解读热力图

  • 对角线模式:表示一致(两个分数赋予相近的值)
  • 反对角线模式:表示负相关(一个分数高,另一个对应低)
  • 散乱模式:表示低相关或数据噪声大
  • 格子深浅:颜色越深,落在该格子的样本越多

理解匹配数据

  • 每个分数总是关联到一个父对象(trace、observation、会话或数据集运行条目)
  • 当两个分数指向同一父对象时,它们就构成一对匹配
  • 如果匹配数远小于各自总数,说明覆盖存在空白
  • 某些评估方法可能是有选择性的(例如只标注边界情况)

相关资源

  • 构建自定义仪表盘,把分数趋势与其他指标一起可视化。
  • 如需以编程方式查询聚合分数数据用于外部监控,请使用 Metrics API
这个页面对你有帮助吗?