评估概览
评估为你的 LLM 应用行为提供了可重复的检查方式。你可以用数据替代猜测。
它们还能帮助你在发布变更前及时发现回归问题。你为处理某个边界情况调整了 prompt,运行评估,便能立即看到它是否以非预期的方式影响了应用行为。
快速开始
如果你刚接触 LLM 评估,建议先阅读核心概念页面。需要理解的内容很多,先过一遍核心概念会大大加快后续的学习曲线。
了解清楚要做什么之后,你可以:
在找特定主题?请查看 Evaluation Methods 与 Experiments 下的相关指南。
这个页面对你有帮助吗?