评估 computer-use 与多模态智能体
如何对 computer-use 与 GUI 智能体,以及语音、视频和文档智能体进行人工评估:评判每个动作和点击、为轮流发言打分,以及在时间上定位事件。
一个 computer-use 智能体像人一样操控图形界面:它读取一张截图,决定一个动作(点击、输入、滚动)并执行。评估它意味着逐步检查每个动作是否正确、点击是否真的落在了目标元素上,而不只是任务最终是否成功。 Potato 是一款用于对 computer-use、GUI、语音、视频和文档智能体进行人工评估的开源工具,为每种模态提供专门构建的标注界面。
一个 computer-use 智能体(也称 GUI 或 OS 智能体)将屏幕感知为像素或 DOM,并通过用户拥有的同一套控件来行动。像 OSWorld、ScreenSpot 和 AndroidWorld 这样的基准会自动为任务成功打分;人工审查补上自动化所遗漏的东西,比如那个碰巧产生了正确结果的动作,或那个点错了按钮却仍然推进了任务的点击。
在一条 computer-use 轨迹中你要评判什么?
每一步把一张截图(智能体所看到的)与一个动作(它所做的)配对。标注者评判该动作,并在该步带有点击坐标时检查截图上的定位标记:
- 动作正确性:正确、错误元素、错误动作,或幻觉。
- 点击定位:坐标是否落在了动作所指名的元素上?
- 结果:运行是否完成了任务,它最先在哪一步出错?
yaml
annotation_schemes:
- annotation_type: gui_trajectory
name: gui_review
description: "For each step: was the action correct and did the click land right?"
steps_key: steps
screenshot_key: screenshot
action_key: action
coord_space: normalized
verdict_options: [correct, wrong_element, wrong_action, hallucinated]捕捉到第一个出错的步骤比单一的通过/失败更重要,因为正是那一步是你要修复或用来训练的对象;参见过程奖励模型。
我如何评估语音智能体的轮流发言?
语音智能体在回合的衔接处失败:打断用户、与用户抢话,或停顿过久。voice_interaction schema 将对话布局为一条双轨时间线,并高亮两位说话者同时说话的重叠区域,标注者对这些区域进行分类(智能体应当回应、应当继续、属于附和,还是不明确),然后为整体轮流发言评分。这是一段扁平的对话记录无法表达的全双工视图。
我如何为视频和文档智能体打分?
- 视频时间定位:对每个事件提示,标出黄金
[start, end]区间;当数据包含模型预测的区间时,一个实时 IoU 会随你调整而更新,因此你直接对定位评分。 - 语音转录:逐片段标记 ASR/TTS 错误并内联修正文本。
- 文档表格:标记边界框无法捕捉的单元格结构(列表头、行表头、数据、空)。
- 交错式推理:为文本-图像-工具轨迹的每一步评定连贯性,并标记视觉幻觉。
每一项都是多模态智能体参考中的一个独立 schema,且其中数个可以在同一项任务上运行。
我该使用哪个 schema?
| 智能体类型 | Schema | 你标注什么 |
|---|---|---|
| Computer-use / GUI | gui_trajectory | 动作正确性 + 点击定位 |
| 语音 / 口语 | voice_interaction | 打断处理与轮流发言 |
| 视频 | temporal_grounding | 黄金事件区间 vs. 预测(IoU) |
| 语音转录 | speech_transcript | 每片段的 ASR/TTS 错误 |
| 文档 / 表格 | table_grid | 单元格结构角色 |
| 多模态推理 | multimodal_reasoning | 步骤连贯性与视觉幻觉 |
延伸阅读
- 多模态智能体评估 — 完整的 schema 参考
- 网页智能体评估 — 截图与动作型网页智能体
- 如何评估 AI 智能体 — 智能体评估的各个层级
- 如何评估多智能体系统