使用 Ragas 与 Litefuse 评估 RAG 流水线

Ragas 与 Litefuse 是评估和监控检索增强生成(RAG)流水线的强力组合。

什么是 Litefuse?

Litefuse(GitHub)是一个面向 LLM 的追踪prompt 管理评估平台。它允许你为 trace 和 span 打分,从而帮助你洞察 RAG 流水线的性能表现。Litefuse 支持多种集成,包括 OpenAILangchain更多集成

什么是 Ragas?

Ragas 是一个开源工具,用于基于模型对 RAG 流水线进行评估。它执行的是无参考评估,意味着无需 ground-truth 数据就能评估系统表现。Ragas 可以评估 RAG 流水线的多个方面,例如忠实度、回答相关性和上下文精确度。

Ragas 的常见使用场景:

  • 评估 RAG 流水线: 生成合成测试集,使用忠实度、回答相关性等指标评估流水线表现。
  • 自定义 Prompt 适配: 编写并优化自定义 prompt,并自动适配以改善检索与生成效果。
  • 集成到 CI 流水线: 通过 Pytest 将 Ragas 集成到 CI 流水线中,实现自动化评估与监控。

Litefuse 与 Ragas 搭配使用的核心收益

  • 为 trace 打分:为 trace 和 span 打分,洞察 RAG 流水线的性能。
  • 详细分析切分并分析 trace,找出低质量分数并改进系统表现。
  • 分数报告:针对特定场景和用户分群进行细粒度报告分析。

快速开始

查看以下 notebook,获取使用 Ragas 与 Litefuse 进行 RAG 评估的端到端示例:

这个页面对你有帮助吗?