Skip to content

评估 computer-use 与多模态智能体

如何对 computer-use 与 GUI 智能体,以及语音、视频和文档智能体进行人工评估:评判每个动作和点击、为轮流发言打分,以及在时间上定位事件。

一个 computer-use 智能体像人一样操控图形界面:它读取一张截图,决定一个动作(点击、输入、滚动)并执行。评估它意味着逐步检查每个动作是否正确、点击是否真的落在了目标元素上,而不只是任务最终是否成功。 Potato 是一款用于对 computer-use、GUI、语音、视频和文档智能体进行人工评估的开源工具,为每种模态提供专门构建的标注界面

一个 computer-use 智能体(也称 GUI 或 OS 智能体)将屏幕感知为像素或 DOM,并通过用户拥有的同一套控件来行动。像 OSWorld、ScreenSpot 和 AndroidWorld 这样的基准会自动为任务成功打分;人工审查补上自动化所遗漏的东西,比如那个碰巧产生了正确结果的动作,或那个点错了按钮却仍然推进了任务的点击。

在一条 computer-use 轨迹中你要评判什么?

每一步把一张截图(智能体所看到的)与一个动作(它所做的)配对。标注者评判该动作,并在该步带有点击坐标时检查截图上的定位标记:

  • 动作正确性:正确、错误元素、错误动作,或幻觉。
  • 点击定位:坐标是否落在了动作所指名的元素上?
  • 结果:运行是否完成了任务,它最先在哪一步出错?
yaml
annotation_schemes:
  - annotation_type: gui_trajectory
    name: gui_review
    description: "For each step: was the action correct and did the click land right?"
    steps_key: steps
    screenshot_key: screenshot
    action_key: action
    coord_space: normalized
    verdict_options: [correct, wrong_element, wrong_action, hallucinated]

捕捉到第一个出错的步骤比单一的通过/失败更重要,因为正是那一步是你要修复或用来训练的对象;参见过程奖励模型

我如何评估语音智能体的轮流发言?

语音智能体在回合的衔接处失败:打断用户、与用户抢话,或停顿过久。voice_interaction schema 将对话布局为一条双轨时间线,并高亮两位说话者同时说话的重叠区域,标注者对这些区域进行分类(智能体应当回应、应当继续、属于附和,还是不明确),然后为整体轮流发言评分。这是一段扁平的对话记录无法表达的全双工视图。

我如何为视频和文档智能体打分?

  • 视频时间定位:对每个事件提示,标出黄金 [start, end] 区间;当数据包含模型预测的区间时,一个实时 IoU 会随你调整而更新,因此你直接对定位评分。
  • 语音转录:逐片段标记 ASR/TTS 错误并内联修正文本。
  • 文档表格:标记边界框无法捕捉的单元格结构(列表头、行表头、数据、空)。
  • 交错式推理:为文本-图像-工具轨迹的每一步评定连贯性,并标记视觉幻觉。

每一项都是多模态智能体参考中的一个独立 schema,且其中数个可以在同一项任务上运行。

我该使用哪个 schema?

智能体类型Schema你标注什么
Computer-use / GUIgui_trajectory动作正确性 + 点击定位
语音 / 口语voice_interaction打断处理与轮流发言
视频temporal_grounding黄金事件区间 vs. 预测(IoU)
语音转录speech_transcript每片段的 ASR/TTS 错误
文档 / 表格table_grid单元格结构角色
多模态推理multimodal_reasoning步骤连贯性与视觉幻觉

延伸阅读