核心评估核心概念

核心概念

本页深入讲解评估的各项概念,以及 Litefuse 中提供了哪些能力。

准备开始了吗?

评估循环

LLM 应用通常处在一个不断测试和监控的循环中。

离线评估让你在部署前用一个固定的数据集对应用进行测试。你用新的 prompt 或模型在测试用例上跑一遍,查看分数,迭代直到结果令人满意,然后再部署变更。在 Litefuse 中,你可以通过运行实验来完成这一步。

在线评估则对线上 trace 进行打分,用于在真实流量中捕捉问题。当你发现数据集没有覆盖到的边界情况时,把它们补回数据集,未来的实验就能覆盖到。

下面是一个示例工作流,用于构建一个客服聊天机器人

  1. 你修改 prompt,让回复更不那么正式。
  2. 在部署前,你运行一个实验:用客户问题数据集测试新的 prompt (离线评估)
  3. 你查看分数和输出。语气改善了,但回复变长了,并且有些遗漏了重要链接。
  4. 你优化 prompt,再次运行实验。
  5. 结果看起来不错。你把新 prompt 部署到生产环境。
  6. 你通过在线评估监控并捕捉新的边界情况。
  7. 你发现一位客户用法语提问,但机器人用英文回复了。
  8. 你把这条法语 query 加入数据集,未来的实验就会覆盖这个问题。
  9. 你更新 prompt 以支持法语回复,并再跑一次实验。

长此以往,你的数据集会从几个示例逐步扩展为一个多样、有代表性的真实测试用例集合。

评估方法

评估方法是用于对 trace、observation、会话或数据集运行进行打分的函数。你可以使用多种评估方法来添加分数

方法内容适用场景
LLM-as-a-Judge使用 LLM 基于自定义标准评估输出大规模主观评估(语气、准确性、有用性)
Scores via UI直接在 Litefuse UI 中手动给 trace 添加分数快速质量抽查、审阅单个 trace
Annotation Queues通过可定制队列实现结构化的人工评审流程构建 ground truth、系统化打标、团队协作
Scores via API/SDK使用 Litefuse API 或 SDK 编程式地添加分数自定义评估流水线、确定性检查、自动化工作流

在配置新的评估方法时,你可以使用分数分析来分析或核对生成的分数。

实验

一次实验会让你的应用在一个数据集上运行并对输出进行评估。这是你在部署到生产之前测试变更的方式。

定义

在深入介绍实验之前,先了解 Litefuse 中的几个基本概念:数据集、数据集条目、任务、分数和实验,会很有帮助。

对象定义
Dataset一组测试用例(数据集条目)。你可以在数据集上运行实验。
Dataset item数据集中的一项。每个数据集条目包含一个输入(要测试的场景),并可选地包含一个期望输出。
Task你想在实验中测试的应用代码。它会针对每个数据集条目执行,然后你对输出进行打分。
Evaluation Method对实验结果打分的函数。在 Litefuse 实验的语境中,它可以是确定性检查,或者 LLM-as-a-Judge
Score评估的输出。可以是数值型、分类型或布尔型。详见分数
Experiment Run在一个数据集的所有条目上单次执行你的任务,并产出输出(以及分数)。

这些对象的数据模型可以在这里查看。

它们是如何协同工作的

概念上的运作方式如下:

当你在某个数据集上运行实验时,每个数据集条目都会被传给你定义的任务函数。任务函数通常是你应用中想要测试的某次 LLM 调用。任务函数为每个数据集条目产生一个输出。这个过程称为一次实验运行。这些与数据集条目关联的输出集合即为实验结果

通常,你会想给这些实验结果打分。你可以使用各种评估方法,它们以数据集条目和任务函数产出的输出为输入,根据你定义的标准产出一个分数。基于这些分数,你就能完整看到你的应用在所有测试用例上的表现。

实验流程

你可以比较不同的实验运行,看新版本 prompt 是否提升了分数,或找出应用表现不佳的具体输入。基于实验结果,你可以判断这次变更是否准备好部署到生产环境。

关于这些对象在底层是如何关联的,更多细节见数据模型页面

运行实验的两种方式

你可以通过 Langfuse SDK 编程式运行实验。这种方式让你完全控制任务、评估逻辑等。了解如何通过 SDK 运行实验

另一种方式是直接在 Litefuse 界面中运行实验,选择数据集和 prompt 版本即可。这适用于不需要写代码就能快速迭代 prompt 的场景。了解如何通过 UI 运行实验

Litefuse 执行

本地/CI 执行

Litefuse 数据集

本地数据集

不支持

虽然这是可选的,但我们建议在 Litefuse 中管理底层数据集,因为这能带来 [1] 在 UI 中对同一数据集上不同实验进行对比表格化展示,以及 [2] 基于生产/预发环境的 trace 迭代地改进数据集。

在线评估

对于在线评估,你可以配置评估方法来自动给生产环境的 trace 打分。这能帮助你及时发现问题。

Litefuse 目前支持 LLM-as-a-Judge 和人工标注两种在线评估方式,确定性检查正在规划中。

通过仪表盘进行监控

Litefuse 提供仪表盘以实时监控应用性能。你也可以在仪表盘中监控分数。如何使用仪表盘的更多细节见这里

这个页面对你有帮助吗?