Question 1

可以评估来自编码代理(如 Claude Code、Cursor、SWE-Agent)的轨迹吗?

Accepted Answer

可以。Potato 原生支持 Claude Code、OpenCode、Cursor、Aider 和 SWE-Agent 的轨迹转换器。工具调用使用专门设计的 UI 呈现:Edit/Write 显示为红绿统一差异视图,Bash 显示为深色等宽终端块,Read/Grep 显示为带行号的代码,以及按操作类型分组的文件树侧边栏。长输出会自动折叠。

Question 2

可以评估网页浏览代理吗?

Accepted Answer

可以。Potato 包含 Web Agent 显示组件,带有用于点击标记、边界框、鼠标轨迹和滚动指示器的 SVG 叠加层。提供两种模式:Review Mode 用于通过胶片条导航预先录制的截图,Creation Mode 用于基于 iframe 的实时网页浏览并自动记录交互。提供 WebArena、Mind2Web 和 Anthropic Computer Use 格式的轨迹转换器。

Question 3

我能评估有多个协作智能体的多智能体系统吗？

Accepted Answer

可以。Potato 把一次多智能体运行渲染为一张由智能体和交接构成的可点击交互图，并提供相应的 schema，用以把失败归因到负有责任的智能体和步骤、审查每一次交接以发现智能体间的失配、为每个智能体和整个团队打分，以及标记跨智能体的工具争用和涌现行为。参见多智能体团队评估文档。

Question 4

我能评估 computer-use、语音或视频智能体吗？

Accepted Answer

可以。Potato 为多模态智能体提供专门构建的 schema：带逐步截图和点击定位的 GUI／computer-use 轨迹、带打断检测的全双工语音时间线、对照模型预测给出实时 IoU 的视频时间定位、对齐的语音转录错误标记、交错式多模态推理，以及文档表格网格结构。参见多模态智能体评估文档。

Question 5

标注者可以实时观看 AI 代理浏览网页吗?

Accepted Answer

可以。Live Agent 模式将 LLM 视觉模型(通过 Playwright 连接的 Anthropic Claude)与无头浏览器相连。代理截屏,LLM 规划动作,Potato 通过 Server-Sent Events 将会话流式传输给标注者。标注者可以在会话中途暂停、发送指令或接管手动控制。通过 `live_agent` 显示类型进行配置。

Question 6

评估期间可以回退、分支或重放代理会话吗?

Accepted Answer

可以。编码代理模式支持在任意步骤进行检查点/回退,并支持用于探索替代轨迹的分支/重放。这对反事实评估、代理决策的 A/B 比较,以及标注者迭代地完善代理运行以收集高质量训练数据非常有用。

Question 7

可以在代理轨迹的单个步骤级别标注错误吗?

Accepted Answer

可以。trajectory_eval 模式(基于 TRAIL 和 AgentRewardBench)将每个步骤显示为一张卡片。标注者标记正确性,从带有子类型(推理、执行、安全等)的可配置分类法中归类错误类型,用加权分数分配严重程度,并撰写每步的理由。自动计算的质量分数会汇总整条轨迹中的严重性惩罚。

Question 8

可以收集过程奖励模型(PRM)和代码评审的训练数据吗?

Accepted Answer

可以。Potato 提供面向编码代理步骤级评估的过程奖励模式和代码评审模式。这两种标注类型都可以直接导出为 PRM 和 DPO 格式,用于下游 RLHF 训练。请参见 coding-agent-evaluation 示例项目。

Question 9

标注者在评估代理时可以向 LLM 寻求帮助吗?

Accepted Answer

可以。LLM Chat Sidebar 是一个可折叠的 AI 助手面板,支持多轮对话。它将任务描述、标签集合和当前实例文本作为上下文。原生支持 OpenAI、Anthropic 和 Ollama 的多轮对话。所有对话都会作为行为数据被记录下来,以便后续分析标注者与 LLM 的协作情况。

Question 10

Can I use Potato with agents built on LangChain?

Accepted Answer

Yes. Potato converts LangChain/LangSmith traces automatically.

Question 11

可以从我的 LangChain 应用自动采集代理轨迹吗?

Accepted Answer

可以。安装 `pip install potato-annotation[langchain]`,然后将 `PotatoCallbackHandler` 附加到您的链上。它会跟踪父子级的链/LLM/工具调用,并在根链完成时向 Potato 发送与 LangSmith 兼容的负载。结合 webhook 接收器,无需手动导出即可将实时代理轨迹送入标注队列。

Question 12

Potato 开箱即用支持哪些代理轨迹格式?

Accepted Answer

三个类别共 13 种格式。**框架**:LangChain、LangFuse、OpenAI、Anthropic、MCP (Model Context Protocol)、OpenTelemetry、ATIF。**Web 代理**:WebArena、原始 web 轨迹。**编码代理**:Claude Code、Aider、SWE-Agent。此外还提供使用 `structured_turns` 模式的通用 JSONL 摄取通道,可适配任意自定义格式。完整列表请见 /integrations。

Question 13

可以在单个代理标注任务中组合多个评估模式吗?

Accepted Answer

可以。在编码代理项目中,你可以在同一条轨迹上叠加 trajectory_eval(每步错误)、span 标注(突出代理推理中的幻觉)、pairwise 比较(哪个代理更好)以及 likert 评分(整体质量)。Potato 的多模式架构让标注者在同一界面中看到针对同一条轨迹的所有模式。

Question 14

Do I need a GPU or API key for live agent evaluation?

Accepted Answer

No. The live agent supports Ollama for fully local inference with no API key.

Question 15

Can I evaluate multi-agent systems?

Accepted Answer

Yes. Potato supports CrewAI, AutoGen, and LangGraph trace formats.

Question 16

What if my agent framework is not listed?

Accepted Answer

Use the generic ReAct converter or the webhook API to send traces in any JSON format.

Question 17

Can annotators interact with agents during evaluation?

Accepted Answer

Yes. Live agent mode lets annotators pause the agent, send instructions, or take over manual control.

Question 18

How do I export agent annotations for training?

Accepted Answer

Use the agent_eval exporter: python -m potato.export -f agent_eval -o results/.

Agent Evaluation

Agent Evaluation

还有其他问题？