Testable Minds 集成

Testable Minds 是由 Testable 提供的人工评估平台，可将你的 LLM trace 与一群经过预先筛选的多样化参与者连接起来。虽然 Litefuse 开箱即用地提供了自动化评估，但许多团队仍需要真实的人类反馈，以理解 AI 在实际场景中的表现。

我们构建了这一集成，方便你回答以下问题：

工作原理

该集成在 Litefuse 与 Testable Minds 之间形成了一个自动化循环：

在 testable.org/ai/langfuse 注册以获取 Testable Minds 的访问权限，并在注册时选择 Litefuse account type。

请确保你在 Litefuse 中至少定义了一个 score 配置。score 配置决定了参与者要回答关于 trace 的什么问题。所有 score 类型（数值、类别、布尔）都受支持。

提示： 使用清晰、客观、非专家也能理解的问题。配上带例子的描述效果最好。

🎓

如果你将 Litefuse 用于研究和教育，可以申请 Litefuse 研究资助。详情见这里。

当参与者完成评估后，score 会自动推回到你的 Litefuse trace 上。可以在 Traces 区域查看。

当未分配的 trace 达到你设置的最小数量时，就会创建新的评估会话。每个会话都内置注意力检查，未通过检查的回答会被自动剔除。

参与者的回答会被映射到你选择的 Litefuse score 配置上，并作为 score 推回到原始 trace 上。

评估由 Testable Minds 中经过预筛选的子集完成 —— 这些参与者专门通过了 AI 与 LLM 评估任务的筛选，并有可靠的高质量记录。所有参与者都有经过验证的身份，并按任务复杂度和长度获得合理报酬。

每个评估会话都内置注意力检查，未通过的回答会被自动剔除，确保你的 Litefuse score 保持准确可靠。

成本由 Testable Minds 根据参与者数量、评估的 trace 总数以及 trace 长度（输入和输出）动态计算。

连接测试失败？ 重新输入 secret key（保存后不会自动回填），核对正确的 base URL，并确认你的 API Key 有访问 score 配置和 trace 的权限。

Litefuse 中缺失 score？ 检查你的 score 配置是否仍然激活（没有被归档）。

没有评估会话创建？ 确认你的 study 处于活动状态（未暂停），且 Testable Minds 余额充足，并有足够数量匹配过滤条件的 trace 满足最小数量。

一个 study 中可以使用多个 score 配置吗？ 可以。参与者会针对每个选中的配置对每个 trace 进行评估，每个配置的分数都会回推。

可以同时运行多个 study 吗？ 可以。每个 study 独立运行，拥有自己的过滤条件、参与者和 score 配置。

可以暂停正在运行的 study 吗？ 可以。切换 Pause traces collection 即可停止导入和新会话。已存在的会话会继续运行直到完成。

自托管的 Litefuse 是否可用？ 可以。在 connections 中选择 “Self hosted”，并填入你完整的 base URL。

如果你有任何反馈或问题，联系我们。

这个页面对你有帮助吗？