Skip to content
Guides4 min read

음성 및 비디오 에이전트 평가

Potato에서 음성, 비디오, 문서 에이전트에 대한 휴먼 평가 안내: 듀얼 트랙 타임라인에서 턴테이킹 점수 매기기, 실시간 IoU로 비디오 이벤트 그라운딩하기, 음성 오류 태깅하기, 그리고 표 구조 표시하기.

Potato Team

말하고, 비디오를 보고, 문서를 읽는 에이전트는 텍스트 박스가 보여줄 수 없는 방식으로 실패합니다. 음성 에이전트의 실수는 턴 사이의 이음매에 살아 있고, 비디오 에이전트의 답은 문장이 아니라 시간 구간이며, 문서 에이전트의 오류는 잘못 읽은 표 셀입니다. 이들 각각은 모달리티에 맞게 모양 잡힌 검토 표면을 필요로 합니다. Potato는 기존의 이미지오디오 디스플레이와 함께 음성, 비디오, 발화, 문서라는 네 가지 그러한 표면을 추가합니다. 전체 레퍼런스는 멀티모달 에이전트 평가입니다.

각 모달리티는 자체 검토 표면을 가진다: 음성, 비디오, 발화, 문서평범한 텍스트 위젯은 끼어들기, 이벤트 구간, 또는 표 셀을 표현할 수 없다

음성 에이전트의 턴테이킹을 어떻게 평가하나요?

말하는 에이전트는 경계에서 망가집니다. 사용자의 말을 끊거나, 사용자 위로 겹쳐 말하거나, 너무 오래 멈춰서 사용자가 포기하게 만듭니다. voice_interaction 스키마는 대화를 듀얼 트랙 타임라인(사용자 레인과 에이전트 레인)으로 펼치고, 둘이 동시에 말하는 겹침 영역을 강조합니다(Full-Duplex-Bench, 2025). 여러분은 각 겹침을 분류하고 전체 턴테이킹을 평가합니다. 오디오가 제공되면 인라인으로 재생됩니다.

강조된 끼어들기 영역이 있는 듀얼 트랙 음성 타임라인끼어들기 감지와 턴테이킹 점수가 있는 듀얼 트랙 음성 타임라인

yaml
annotation_schemes:
  - annotation_type: voice_interaction
    name: turn_taking
    description: "Classify each barge-in/overlap and rate the overall turn-taking."
    turns_key: turns
    speaker_key: speaker
    user_speakers: [user, human, caller]
    overlap_labels: [agent_should_respond, agent_should_resume, backchannel, uncertain]
    rating_scale: 5

겹침은 렌더링 시점에 턴 타이밍에서 계산되므로, 평평한 대화록이라면 "둘 다 무언가 말했다"로 뭉개버렸을 풀 듀플렉스 대화가 구체적이고 라벨링 가능한 순간들의 집합이 됩니다.

비디오 에이전트의 시간적 그라운딩을 어떻게 점수 매기나요?

"목표가 언제 일어나는가?"에 대한 비디오 에이전트의 답은 구간이므로, 여러분도 그것을 구간으로 점수 매깁니다. temporal_grounding 스키마는 스크러버를 제공하며, 여기서 각 이벤트 프롬프트에 대한 골드 [start, end]를 재생 헤드를 캡처하거나 초를 입력해서 표시합니다. 데이터가 모델이 예측한 구간을 담고 있으면, 여러분이 조정함에 따라 실시간 **IoU**와 두 막대 미니 타임라인이 업데이트됩니다(TimeScope, 2025).

골드 구간과 실시간 IoU 표시가 있는 비디오 스크러버모델의 예측 대비 실시간 IoU와 함께 비디오에서 골드 이벤트 구간을 표시하기

yaml
annotation_schemes:
  - annotation_type: temporal_grounding
    name: grounding
    description: "Mark the gold start/end interval for each event. IoU vs prediction updates live."
    video_key: video
    events_key: events

이것은 예측 대 골드 국소화를 위해 만들어졌으며, 일반적인 세그먼트 라벨링과는 다른 일입니다. 여러분은 모델의 구간이 진실에 얼마나 가까운지를 점수 매기고 있으며, 경계를 드래그하면서 IoU가 움직이는 것을 보는 것이 그것을 즉각적으로 만듭니다.

음성 전사, 추론, 표는요?

세 가지 표면이 멀티모달 범위의 나머지를 다룹니다.

  • 음성 전사(speech_transcript): 시간 정렬된 각 세그먼트는 카드입니다. 여러분은 ASR/TTS 오류, 잘못된 발음, 비유창성을 태깅하고 텍스트를 인라인으로 수정합니다(Speak & Improve, 2025). 이것은 턴테이킹 뷰의 세그먼트 단위 보완재입니다.
  • 인터리브된 추론(multimodal_reasoning): 텍스트-이미지-도구 트레이스를 타입이 지정된 블록으로 렌더링합니다. 여러분은 각 단계의 일관성을 평가하고 추론이 이미지로부터 따라 나오지 않는 시각적 환각을 플래그합니다(Multimodal RewardBench 2, 2025).
  • 문서 표(table_grid): 격자 차원을 설정하고 셀을 클릭해 그 역할(데이터, 열 헤더, 행 헤더, 비어 있음)을 표시하여, 바운딩 박스가 담을 수 없는 구조를 포착합니다.

세그먼트별 오류 태그와 인라인 수정이 있는 음성 전사 세그먼트세그먼트마다 ASR/TTS/발음 오류를 태깅하고 전사를 인라인으로 수정하기

yaml
annotation_schemes:
  - annotation_type: speech_transcript
    name: speech_errors
    description: "Tag speech errors on each segment and correct the transcript where needed."
    segments_key: segments
    error_types: [asr_error, tts_artifact, mispronunciation, disfluency]
    allow_correction: true

플래그된 시각적 환각이 있는 인터리브된 추론 트레이스텍스트-이미지-도구 추론 트레이스의 각 단계를 일관성과 시각적 환각에 대해 평가하기

이들 스키마 중 여럿을 동일한 작업에서 실행할 수 있으므로, 하나의 문서 에이전트 실행을 표 구조와 추론 일관성에 대해 동시에 점수 매길 수 있습니다.

헤더, 데이터, 비어 있음으로 표시된 셀이 있는 표 이미지문서 표 셀 구조 어노테이션하기: 열 및 행 헤더, 데이터, 빈 셀

어떻게 설정하나요?

각각의 표면은 examples/agent-traces/ 아래에 실행 가능한 예제를 제공합니다.

bash
pip install --upgrade potato-annotation
python potato/flask_server.py start examples/agent-traces/temporal-grounding/config.yaml -p 8000

여러분의 데이터는 타임스탬프가 있는 턴, 세그먼트, 또는 이벤트로 들어가며, 표면은 렌더링 시점에 그들로부터 타임라인을 도출합니다. GUI 및 OS 에이전트의 경우, 짝이 되는 글은 컴퓨터 사용 에이전트 평가입니다.

더 읽을거리