会说话、看视频、读文档的智能体，会以文本框无法呈现的方式出错。一个语音智能体的失误活在回合之间的接缝处；一个视频智能体的答案是一个时间区间，而不是一句话；一个文档智能体的错误是一个误读的表格单元。这些每一种都需要一个为该模态量身打造的审查界面。 Potato 在已有的图像和音频展示之外，新增了四个这样的界面——语音、视频、语音转写和文档。完整参考是多模态智能体评估。

每个模态都有自己的审查界面：语音、视频、语音转写和文档一个普通文本控件无法表达一次打断、一个事件区间或一个表格单元

我怎么评估一个语音智能体的轮流发言？

口语智能体在边界处出问题：打断用户、和用户抢话，或者停顿太久以至于用户放弃。voice_interaction 方案把对话排布成一条双轨时间线——一条用户泳道和一条智能体泳道——并高亮两者同时说话的重叠区域（Full-Duplex-Bench，2025）。你对每一处重叠分类，并为整体的轮流发言打分；提供音频时会内嵌播放。

一条带高亮打断区域的双轨语音时间线带打断检测与轮流发言评分的双轨语音时间线

yaml

annotation_schemes:
  - annotation_type: voice_interaction
    name: turn_taking
    description: "Classify each barge-in/overlap and rate the overall turn-taking."
    turns_key: turns
    speaker_key: speaker
    user_speakers: [user, human, caller]
    overlap_labels: [agent_should_respond, agent_should_resume, backchannel, uncertain]
    rating_scale: 5

这些重叠在渲染时根据回合的时序计算得出，于是一段会被扁平记录压成“他们俩都说了些话”的全双工对话，就变成了一组具体、可打标签的时刻。

我怎么给一个视频智能体的时间定位打分？

一个视频智能体对“目标什么时候发生？”的回答是一个区间，所以你也把它当作区间来打分。temporal_grounding 方案给你一个拖动条，你在上面为每个事件提示标出黄金的 [start, end]，方式是捕捉播放头或输入秒数。当数据带有模型的预测区间时，随着你调整，一个实时的 IoU 和一条双条迷你时间线会同步更新（TimeScope，2025）。

一个带黄金区间和实时 IoU 读数的视频拖动条在视频上标出黄金事件区间，并实时显示相对模型预测的 IoU

这是为预测与黄金的定位对比而打造的，这和一般的片段标注是不同的活儿：你在给模型的跨度离真相有多近打分，而看着 IoU 随你拖动边界而移动，让这件事变得即时可感。

那语音转写、推理和表格呢？

还有三个界面覆盖了多模态领域的其余部分：

语音转写（speech_transcript）：每一个时间对齐的片段都是一张卡片；你标记 ASR/TTS 错误、发音错误和不流畅，并就地修正文本（Speak & Improve，2025）。这是对轮流发言视图在片段层级上的补充。
交错推理（multimodal_reasoning）：一条文本-图像-工具的轨迹被渲染成带类型的块；你为每一步的连贯性打分，并标记那些推理与图像不相符的视觉幻觉（Multimodal RewardBench 2，2025）。
文档表格（table_grid）：你设定网格尺寸并点击单元格以标出它们的角色——数据、列表头、行表头、空——从而捕捉边界框无法捕捉的结构。

带每片段错误标签和就地修正的语音转写片段为每个片段标记 ASR/TTS/发音错误，并就地修正转写文本

yaml

annotation_schemes:
  - annotation_type: speech_transcript
    name: speech_errors
    description: "Tag speech errors on each segment and correct the transcript where needed."
    segments_key: segments
    error_types: [asr_error, tts_artifact, mispronunciation, disfluency]
    allow_correction: true

一条带被标记的视觉幻觉的交错推理轨迹为一条文本-图像-工具推理轨迹的每一步评判连贯性与视觉幻觉

这些方案中有几个可以在同一个任务上运行，所以一次文档智能体的运行可以同时被评分表格结构和推理连贯性。

一张表格图像，其单元格被标为表头、数据和空标注文档表格的单元格结构：列表头与行表头、数据和空单元格

我怎么把它搭起来？

每个界面都在 examples/agent-traces/ 下附带一个可运行示例：

bash

pip install --upgrade potato-annotation
python potato/flask_server.py start examples/agent-traces/temporal-grounding/config.yaml -p 8000

你的数据以带时间戳的回合、片段或事件的形式接入；界面会在渲染时从中推导出自己的时间线。对于 GUI 和操作系统智能体，配套的篇章是评估计算机操作智能体。

评估语音与视频智能体

我怎么评估一个语音智能体的轮流发言？

我怎么给一个视频智能体的时间定位打分？

那语音转写、推理和表格呢？

我怎么把它搭起来？

延伸阅读