评估 computer-use 与多模态智能体

如何对 computer-use 与 GUI 智能体，以及语音、视频和文档智能体进行人工评估：评判每个动作和点击、为轮流发言打分，以及在时间上定位事件。

一个 computer-use 智能体像人一样操控图形界面：它读取一张截图，决定一个动作（点击、输入、滚动）并执行。评估它意味着逐步检查每个动作是否正确、点击是否真的落在了目标元素上，而不只是任务最终是否成功。 Potato 是一款用于对 computer-use、GUI、语音、视频和文档智能体进行人工评估的开源工具，为每种模态提供专门构建的标注界面。

一个 computer-use 智能体（也称 GUI 或 OS 智能体）将屏幕感知为像素或 DOM，并通过用户拥有的同一套控件来行动。像 OSWorld、ScreenSpot 和 AndroidWorld 这样的基准会自动为任务成功打分；人工审查补上自动化所遗漏的东西，比如那个碰巧产生了正确结果的动作，或那个点错了按钮却仍然推进了任务的点击。

在一条 computer-use 轨迹中你要评判什么？

每一步把一张截图（智能体所看到的）与一个动作（它所做的）配对。标注者评判该动作，并在该步带有点击坐标时检查截图上的定位标记：

动作正确性：正确、错误元素、错误动作，或幻觉。
点击定位：坐标是否落在了动作所指名的元素上？
结果：运行是否完成了任务，它最先在哪一步出错？

yaml

annotation_schemes:
  - annotation_type: gui_trajectory
    name: gui_review
    description: "For each step: was the action correct and did the click land right?"
    steps_key: steps
    screenshot_key: screenshot
    action_key: action
    coord_space: normalized
    verdict_options: [correct, wrong_element, wrong_action, hallucinated]

捕捉到第一个出错的步骤比单一的通过/失败更重要，因为正是那一步是你要修复或用来训练的对象；参见过程奖励模型。

我如何评估语音智能体的轮流发言？

语音智能体在回合的衔接处失败：打断用户、与用户抢话，或停顿过久。voice_interaction schema 将对话布局为一条双轨时间线，并高亮两位说话者同时说话的重叠区域，标注者对这些区域进行分类（智能体应当回应、应当继续、属于附和，还是不明确），然后为整体轮流发言评分。这是一段扁平的对话记录无法表达的全双工视图。

我如何为视频和文档智能体打分？

视频时间定位：对每个事件提示，标出黄金 [start, end] 区间；当数据包含模型预测的区间时，一个实时 IoU 会随你调整而更新，因此你直接对定位评分。
语音转录：逐片段标记 ASR/TTS 错误并内联修正文本。
文档表格：标记边界框无法捕捉的单元格结构（列表头、行表头、数据、空）。
交错式推理：为文本-图像-工具轨迹的每一步评定连贯性，并标记视觉幻觉。

每一项都是多模态智能体参考中的一个独立 schema，且其中数个可以在同一项任务上运行。

我该使用哪个 schema？

智能体类型	Schema	你标注什么
Computer-use / GUI	`gui_trajectory`	动作正确性 + 点击定位
语音 / 口语	`voice_interaction`	打断处理与轮流发言
视频	`temporal_grounding`	黄金事件区间 vs. 预测（IoU）
语音转录	`speech_transcript`	每片段的 ASR/TTS 错误
文档 / 表格	`table_grid`	单元格结构角色
多模态推理	`multimodal_reasoning`	步骤连贯性与视觉幻觉

评估 computer-use 与多模态智能体

在一条 computer-use 轨迹中你要评判什么？

我如何评估语音智能体的轮流发言？

我如何为视频和文档智能体打分？

我该使用哪个 schema？

延伸阅读