如何评估 AI 智能体

用人工标注评估 AI 智能体与 LLM 的概览，涵盖轨迹级、步骤级、跨度级与对比级评估，以及各自适配的 Potato 工具。

评估一个 AI 智能体，不只是判断它的最终答案，更要评估它走过的路径，包括沿途的推理、工具调用和动作。在这件事上，人工标注仍是黄金标准，因为许多智能体的失败（看似合理实则错误的某一步、一次不安全的操作）只有人才能可靠地发现。 Potato 是一款用于对 LLM 智能体轨迹进行人工标注的开源工具，为每个评估层级都提供了专门设计的视图。

这里的 AI 智能体指的是由 LLM 驱动、通过多步动作（调用工具、浏览网页或编写代码）来完成任务的系统。参见智能体评估概览与智能体标注参考。

AI 智能体评估有哪些层级？

根据你要回答的问题选择相应层级：

轨迹级：评判整个运行过程。是否成功？是否高效且安全？参见标注智能体轨迹。
步骤级：评判每一个动作。这次工具调用是否正确？这一步是否必要？这正是过程奖励模型所依赖的数据。
跨度级：在输出内部标出具体问题，例如某个幻觉式的论断或一条不安全的指令。参见检测幻觉。
对比级：将两个智能体或两次运行直接对比评判。参见成对模型对比。
团队级：对于多智能体系统，把失败归因到负有责任的智能体、步骤和交接。参见如何评估多智能体系统。

Potato 支持哪些智能体轨迹格式？

Potato 可读取 13 种格式的智能体轨迹，包括 OpenAI 和 Anthropic 的工具调用、ReAct、LangChain、LangFuse、WebArena、SWE-bench、MCP 与 OpenTelemetry，并以针对不同类型智能体调校过的视图进行渲染：

智能体轨迹视图，用于推理／工具调用轨迹。
网页智能体视图，带截图和动作叠加层，参见网页智能体评估。
编码轨迹视图，带 diff 和终端输出，参见编码智能体评估。
实时智能体视图，用于实时观察并引导智能体，参见实时智能体评估。
多模态智能体视图，用于 computer-use、语音和视频智能体，参见评估 computer-use 与多模态智能体。

我该选择哪种智能体评估方法？

你的问题	方法
"智能体完成任务了吗？"	轨迹成功标签
"它究竟在哪里出了错？"	步骤级错误分类体系
"哪个版本更好？"	成对对比
"它在多个维度上表现如何？"	评分量表评估
"基于检索上下文给出的答案是否忠实？"	RAG 评估
"团队中的哪个智能体导致了失败？"	多智能体归因
"computer-use 智能体点对地方了吗？"	GUI 轨迹审查

如何评估 AI 智能体

AI 智能体评估有哪些层级？

Potato 支持哪些智能体轨迹格式？

我该选择哪种智能体评估方法？

延伸阅读