核心概念

本页深入讲解评估的各项概念，以及 Litefuse 中提供了哪些能力。

准备开始了吗？

创建数据集以稳定地衡量你的 LLM 应用性能
运行实验以了解应用的整体表现
设置 LLM-as-a-Judge以评估你的线上 trace

评估循环

LLM 应用通常处在一个不断测试和监控的循环中。

离线评估让你在部署前用一个固定的数据集对应用进行测试。你用新的 prompt 或模型在测试用例上跑一遍，查看分数，迭代直到结果令人满意，然后再部署变更。在 Litefuse 中，你可以通过运行实验来完成这一步。

在线评估则对线上 trace 进行打分，用于在真实流量中捕捉问题。当你发现数据集没有覆盖到的边界情况时，把它们补回数据集，未来的实验就能覆盖到。

下面是一个示例工作流，用于构建一个客服聊天机器人

你修改 prompt，让回复更不那么正式。

在部署前，你运行一个实验：用客户问题数据集测试新的 prompt （离线评估）。

你查看分数和输出。语气改善了，但回复变长了，并且有些遗漏了重要链接。

你优化 prompt，再次运行实验。

结果看起来不错。你把新 prompt 部署到生产环境。

你通过在线评估监控并捕捉新的边界情况。

你发现一位客户用法语提问，但机器人用英文回复了。

你把这条法语 query 加入数据集，未来的实验就会覆盖这个问题。

你更新 prompt 以支持法语回复，并再跑一次实验。

长此以往，你的数据集会从几个示例逐步扩展为一个多样、有代表性的真实测试用例集合。

评估方法

评估方法是用于对 trace、observation、会话或数据集运行进行打分的函数。你可以使用多种评估方法来添加分数。

方法	内容	适用场景
LLM-as-a-Judge	使用 LLM 基于自定义标准评估输出	大规模主观评估（语气、准确性、有用性）
Scores via UI	直接在 Litefuse UI 中手动给 trace 添加分数	快速质量抽查、审阅单个 trace
Annotation Queues	通过可定制队列实现结构化的人工评审流程	构建 ground truth、系统化打标、团队协作
Scores via API/SDK	使用 Litefuse API 或 SDK 编程式地添加分数	自定义评估流水线、确定性检查、自动化工作流

在配置新的评估方法时，你可以使用分数分析来分析或核对生成的分数。

实验

一次实验会让你的应用在一个数据集上运行并对输出进行评估。这是你在部署到生产之前测试变更的方式。

定义

在深入介绍实验之前，先了解 Litefuse 中的几个基本概念：数据集、数据集条目、任务、分数和实验，会很有帮助。

对象	定义
Dataset	一组测试用例（数据集条目）。你可以在数据集上运行实验。
Dataset item	数据集中的一项。每个数据集条目包含一个输入（要测试的场景），并可选地包含一个期望输出。
Task	你想在实验中测试的应用代码。它会针对每个数据集条目执行，然后你对输出进行打分。
Evaluation Method	对实验结果打分的函数。在 Litefuse 实验的语境中，它可以是确定性检查，或者 LLM-as-a-Judge。
Score	评估的输出。可以是数值型、分类型或布尔型。详见分数。
Experiment Run	在一个数据集的所有条目上单次执行你的任务，并产出输出（以及分数）。