用于数据集实验的 LLM-as-a-Judge 评估器
10 分钟演示,介绍如何使用 Litefuse 全新的托管式 LLM-as-a-Judge 评估器可靠地评估你的 LLM 应用变更。
该功能可以帮助团队:
- 自动针对测试数据集评估实验运行结果
- 在不同版本之间对比指标
- 在回归进入生产环境之前发现问题
- 基于幻觉、有用性、相关性等标准对输出进行打分
通过 function calling,支持包括 OpenAI、Anthropic、Azure OpenAI 和 AWS Bedrock 在内的主流 LLM 提供商。
更多信息:
这个页面对你有帮助吗?