Testable Minds 集成
Testable Minds 是由 Testable 提供的人工评估平台,可将你的 LLM trace 与一群经过预先筛选的多样化参与者连接起来。虽然 Litefuse 开箱即用地提供了自动化评估,但许多团队仍需要真实的人类反馈,以理解 AI 在实际场景中的表现。
我们构建了这一集成,方便你回答以下问题:
- “真实用户如何看待我 LLM 输出的质量?”
- “在不同人群中,我的 AI 回复是否有用、准确、得体?”
- “人类反馈与我自动化评估分数之间的相关性如何?”
- “我的自动化评估流水线存在哪些盲点?“
工作原理
该集成在 Litefuse 与 Testable Minds 之间形成了一个自动化循环:
- Testable Minds 按你的过滤条件向你的 Litefuse 项目轮询 trace
- trace 被打包成评估会话,提供给符合条件的参与者
- 参与者按你 Litefuse 中的 score 配置对每个 trace 进行评估
- 评估结果会自动作为 score 推回到 Litefuse 上对应的 trace
快速开始
创建 Testable 账号
在 testable.org/ai/langfuse 注册以获取 Testable Minds 的访问权限,并在注册时选择 Litefuse account type。
配置 Litefuse 的 score 配置
请确保你在 Litefuse 中至少定义了一个 score 配置。score 配置决定了参与者要回答关于 trace 的什么问题。所有 score 类型(数值、类别、布尔)都受支持。
提示: 使用清晰、客观、非专家也能理解的问题。配上带例子的描述效果最好。
在 Testable 中连接 Litefuse
如果你将 Litefuse 用于研究和教育,可以申请 Litefuse 研究资助。详情见这里。
- 在 Testable 仪表盘进入
Account → Connections - 填入你的 Litefuse Secret Key 与 Public Key
- 选择服务器 region(Cloud EU 或 Cloud US)
- 点击 Check Connection 验证,然后 Save Connection
创建一个 study
-
进入
Dashboard → Studies并点击 Create Study -
配置你的 study:
参与者
- 每条 trace 的响应人数
- 可选的性别均衡限制
- 用于针对特定人群的筛选条件,例如年龄、地区、语言熟练度等
Litefuse 数据设置
- Traces minimum count:在启动评估会话前未分配 trace 的最小数量。
- Score Configs:选择要评估的 Litefuse score 配置。
- Tags(可选):按 Litefuse 标签筛选 trace(例如
external_eval、testable_minds_eval等)(多个标签之间为 AND 关系)。 - Environments(可选):按环境筛选(例如
production、staging等)(多个环境之间为 OR 关系)。
参与者可见的内容
- 展示给参与者的标题与说明
-
为你的 Testable Minds 余额充值以覆盖评估成本
-
在 study 顶部切换 Start traces collection 开关
在 Litefuse 中查看 score
当参与者完成评估后,score 会自动推回到你的 Litefuse trace 上。可以在 Traces 区域查看。
集成细节
Trace 导入
- 在 study 处于活动状态期间会持续轮询 trace。你可以通过切换 Pause traces collection 暂停导入。
- 只有同时包含输入和输出的 trace 才会被导入
- 目前仅支持基于文本的输入/输出
评估会话创建
当未分配的 trace 达到你设置的最小数量时,就会创建新的评估会话。每个会话都内置注意力检查,未通过检查的回答会被自动剔除。
Score 投递
参与者的回答会被映射到你选择的 Litefuse score 配置上,并作为 score 推回到原始 trace 上。
数据质量
评估由 Testable Minds 中经过预筛选的子集完成 —— 这些参与者专门通过了 AI 与 LLM 评估任务的筛选,并有可靠的高质量记录。所有参与者都有经过验证的身份,并按任务复杂度和长度获得合理报酬。
每个评估会话都内置注意力检查,未通过的回答会被自动剔除,确保你的 Litefuse score 保持准确可靠。
成本
成本由 Testable Minds 根据参与者数量、评估的 trace 总数以及 trace 长度(输入和输出)动态计算。
故障排查
连接测试失败? 重新输入 secret key(保存后不会自动回填),核对正确的 base URL,并确认你的 API Key 有访问 score 配置和 trace 的权限。
Litefuse 中缺失 score? 检查你的 score 配置是否仍然激活(没有被归档)。
没有评估会话创建? 确认你的 study 处于活动状态(未暂停),且 Testable Minds 余额充足,并有足够数量匹配过滤条件的 trace 满足最小数量。
FAQ
一个 study 中可以使用多个 score 配置吗? 可以。参与者会针对每个选中的配置对每个 trace 进行评估,每个配置的分数都会回推。
可以同时运行多个 study 吗? 可以。每个 study 独立运行,拥有自己的过滤条件、参与者和 score 配置。
可以暂停正在运行的 study 吗? 可以。切换 Pause traces collection 即可停止导入和新会话。已存在的会话会继续运行直到完成。
自托管的 Litefuse 是否可用? 可以。在 connections 中选择 “Self hosted”,并填入你完整的 base URL。
反馈
如果你有任何反馈或问题,联系我们。