评估语音与视频智能体
在 Potato 中对口语、视频和文档智能体做人工评估的一次演练:在双轨时间线上给轮流发言打分、用实时 IoU 为视频事件定位、标记语音错误,以及标出表格结构。
会说话、看视频、读文档的智能体,会以文本框无法呈现的方式出错。一个语音智能体的失误活在回合之间的接缝处;一个视频智能体的答案是一个时间区间,而不是一句话;一个文档智能体的错误是一个误读的表格单元。这些每一种都需要一个为该模态量身打造的审查界面。 Potato 在已有的 图像 和 音频 展示之外,新增了四个这样的界面——语音、视频、语音转写和文档。完整参考是 多模态智能体评估。
一个普通文本控件无法表达一次打断、一个事件区间或一个表格单元
我怎么评估一个语音智能体的轮流发言?
口语智能体在边界处出问题:打断用户、和用户抢话,或者停顿太久以至于用户放弃。voice_interaction 方案把对话排布成一条双轨时间线——一条用户泳道和一条智能体泳道——并高亮两者同时说话的重叠区域(Full-Duplex-Bench,2025)。你对每一处重叠分类,并为整体的轮流发言打分;提供音频时会内嵌播放。
带打断检测与轮流发言评分的双轨语音时间线
annotation_schemes:
- annotation_type: voice_interaction
name: turn_taking
description: "Classify each barge-in/overlap and rate the overall turn-taking."
turns_key: turns
speaker_key: speaker
user_speakers: [user, human, caller]
overlap_labels: [agent_should_respond, agent_should_resume, backchannel, uncertain]
rating_scale: 5这些重叠在渲染时根据回合的时序计算得出,于是一段会被扁平记录压成“他们俩都说了些话”的 全双工 对话,就变成了一组具体、可打标签的时刻。
我怎么给一个视频智能体的时间定位打分?
一个视频智能体对“目标什么时候发生?”的回答是一个区间,所以你也把它当作区间来打分。temporal_grounding 方案给你一个拖动条,你在上面为每个事件提示标出黄金的 [start, end],方式是捕捉播放头或输入秒数。当数据带有模型的预测区间时,随着你调整,一个实时的 IoU 和一条双条迷你时间线会同步更新(TimeScope,2025)。
在视频上标出黄金事件区间,并实时显示相对模型预测的 IoU
这是为预测与黄金的定位对比而打造的,这和一般的片段标注是不同的活儿:你在给模型的跨度离真相有多近打分,而看着 IoU 随你拖动边界而移动,让这件事变得即时可感。
那语音转写、推理和表格呢?
还有三个界面覆盖了多模态领域的其余部分:
- 语音转写(
speech_transcript):每一个时间对齐的片段都是一张卡片;你标记 ASR/TTS 错误、发音错误和不流畅,并就地修正文本(Speak & Improve,2025)。这是对轮流发言视图在片段层级上的补充。 - 交错推理(
multimodal_reasoning):一条文本-图像-工具的轨迹被渲染成带类型的块;你为每一步的连贯性打分,并标记那些推理与图像不相符的视觉幻觉(Multimodal RewardBench 2,2025)。 - 文档表格(
table_grid):你设定网格尺寸并点击单元格以标出它们的角色——数据、列表头、行表头、空——从而捕捉边界框无法捕捉的结构。
为每个片段标记 ASR/TTS/发音错误,并就地修正转写文本
annotation_schemes:
- annotation_type: speech_transcript
name: speech_errors
description: "Tag speech errors on each segment and correct the transcript where needed."
segments_key: segments
error_types: [asr_error, tts_artifact, mispronunciation, disfluency]
allow_correction: true
为一条文本-图像-工具推理轨迹的每一步评判连贯性与视觉幻觉
这些方案中有几个可以在同一个任务上运行,所以一次文档智能体的运行可以同时被评分表格结构和推理连贯性。
标注文档表格的单元格结构:列表头与行表头、数据和空单元格
我怎么把它搭起来?
每个界面都在 examples/agent-traces/ 下附带一个可运行示例:
pip install --upgrade potato-annotation
python potato/flask_server.py start examples/agent-traces/temporal-grounding/config.yaml -p 8000你的数据以带时间戳的回合、片段或事件的形式接入;界面会在渲染时从中推导出自己的时间线。对于 GUI 和操作系统智能体,配套的篇章是 评估计算机操作智能体。
延伸阅读
- 多模态智能体评估 — 完整的方案参考
- 评估计算机操作与多模态智能体 — 带方案选择表的指南
- 逐步评估计算机操作智能体 — 多模态界面的 GUI 与操作系统那一半
- Potato 2.6.2:一套完整的开源智能体评估工具 — 2.6.x 系列的全部内容