使用 Ragas 与 Litefuse 评估 RAG 流水线
Ragas 与 Litefuse 是评估和监控检索增强生成(RAG)流水线的强力组合。
什么是 Litefuse?
Litefuse(GitHub)是一个面向 LLM 的追踪、prompt 管理与评估平台。它允许你为 trace 和 span 打分,从而帮助你洞察 RAG 流水线的性能表现。Litefuse 支持多种集成,包括 OpenAI、Langchain 等更多集成。
什么是 Ragas?
Ragas 是一个开源工具,用于基于模型对 RAG 流水线进行评估。它执行的是无参考评估,意味着无需 ground-truth 数据就能评估系统表现。Ragas 可以评估 RAG 流水线的多个方面,例如忠实度、回答相关性和上下文精确度。
Ragas 的常见使用场景:
- 评估 RAG 流水线: 生成合成测试集,使用忠实度、回答相关性等指标评估流水线表现。
- 自定义 Prompt 适配: 编写并优化自定义 prompt,并自动适配以改善检索与生成效果。
- 集成到 CI 流水线: 通过 Pytest 将 Ragas 集成到 CI 流水线中,实现自动化评估与监控。
Litefuse 与 Ragas 搭配使用的核心收益
- 为 trace 打分:为 trace 和 span 打分,洞察 RAG 流水线的性能。
- 详细分析:切分并分析 trace,找出低质量分数并改进系统表现。
- 分数报告:针对特定场景和用户分群进行细粒度报告分析。
快速开始
查看以下 notebook,获取使用 Ragas 与 Litefuse 进行 RAG 评估的端到端示例:
这个页面对你有帮助吗?