Agent Evaluation
查找有关 Potato 的常见问题解答。没有找到您需要的答案?请加入我们的 Discord 或查阅文档。
Agent Evaluation
可以。Potato 原生支持 Claude Code、OpenCode、Cursor、Aider 和 SWE-Agent 的轨迹转换器。工具调用使用专门设计的 UI 呈现:Edit/Write 显示为红绿统一差异视图,Bash 显示为深色等宽终端块,Read/Grep 显示为带行号的代码,以及按操作类型分组的文件树侧边栏。长输出会自动折叠。
可以。Potato 包含 Web Agent 显示组件,带有用于点击标记、边界框、鼠标轨迹和滚动指示器的 SVG 叠加层。提供两种模式:Review Mode 用于通过胶片条导航预先录制的截图,Creation Mode 用于基于 iframe 的实时网页浏览并自动记录交互。提供 WebArena、Mind2Web 和 Anthropic Computer Use 格式的轨迹转换器。
可以。Live Agent 模式将 LLM 视觉模型(通过 Playwright 连接的 Anthropic Claude)与无头浏览器相连。代理截屏,LLM 规划动作,Potato 通过 Server-Sent Events 将会话流式传输给标注者。标注者可以在会话中途暂停、发送指令或接管手动控制。通过 `live_agent` 显示类型进行配置。
可以。编码代理模式支持在任意步骤进行检查点/回退,并支持用于探索替代轨迹的分支/重放。这对反事实评估、代理决策的 A/B 比较,以及标注者迭代地完善代理运行以收集高质量训练数据非常有用。
可以。trajectory_eval 模式(基于 TRAIL 和 AgentRewardBench)将每个步骤显示为一张卡片。标注者标记正确性,从带有子类型(推理、执行、安全等)的可配置分类法中归类错误类型,用加权分数分配严重程度,并撰写每步的理由。自动计算的质量分数会汇总整条轨迹中的严重性惩罚。
可以。Potato 提供面向编码代理步骤级评估的过程奖励模式和代码评审模式。这两种标注类型都可以直接导出为 PRM 和 DPO 格式,用于下游 RLHF 训练。请参见 coding-agent-evaluation 示例项目。
可以。LLM Chat Sidebar 是一个可折叠的 AI 助手面板,支持多轮对话。它将任务描述、标签集合和当前实例文本作为上下文。原生支持 OpenAI、Anthropic 和 Ollama 的多轮对话。所有对话都会作为行为数据被记录下来,以便后续分析标注者与 LLM 的协作情况。
Yes. Potato converts LangChain/LangSmith traces automatically.
可以。安装 `pip install potato-annotation[langchain]`,然后将 `PotatoCallbackHandler` 附加到您的链上。它会跟踪父子级的链/LLM/工具调用,并在根链完成时向 Potato 发送与 LangSmith 兼容的负载。结合 webhook 接收器,无需手动导出即可将实时代理轨迹送入标注队列。
三个类别共 13 种格式。**框架**:LangChain、LangFuse、OpenAI、Anthropic、MCP (Model Context Protocol)、OpenTelemetry、ATIF。**Web 代理**:WebArena、原始 web 轨迹。**编码代理**:Claude Code、Aider、SWE-Agent。此外还提供使用 `structured_turns` 模式的通用 JSONL 摄取通道,可适配任意自定义格式。完整列表请见 /integrations。
可以。在编码代理项目中,你可以在同一条轨迹上叠加 trajectory_eval(每步错误)、span 标注(突出代理推理中的幻觉)、pairwise 比较(哪个代理更好)以及 likert 评分(整体质量)。Potato 的多模式架构让标注者在同一界面中看到针对同一条轨迹的所有模式。
No. The live agent supports Ollama for fully local inference with no API key.
Yes. Potato supports CrewAI, AutoGen, and LangGraph trace formats.
Use the generic ReAct converter or the webhook API to send traces in any JSON format.
Yes. Live agent mode lets annotators pause the agent, send instructions, or take over manual control.
Use the agent_eval exporter: python -m potato.export -f agent_eval -o results/.