Skip to content
Guides5 min read

Valutare agenti vocali e video

Una guida pratica alla valutazione umana per agenti parlati, video e documentali in Potato: valutare la gestione dei turni su una timeline a doppia traccia, fare grounding degli eventi video con IoU dal vivo, taggare gli errori del parlato e marcare la struttura delle tabelle.

Potato Team

Gli agenti che parlano, guardano video e leggono documenti falliscono in modi che una casella di testo non può mostrare. Gli errori di un agente vocale vivono nei punti di giunzione tra i turni; la risposta di un agente video è un intervallo di tempo, non una frase; l'errore di un agente documentale è una cella di tabella letta male. Ognuno di questi ha bisogno di una superficie di revisione modellata sulla modalità. Potato aggiunge quattro di queste superfici — voce, video, parlato e documento — accanto ai display esistenti per immagini e audio. Il riferimento completo è Valutazione di agenti multimodali.

Ogni modalità ha la propria superficie di revisione: voce, video, parlato e documentoUn semplice widget di testo non può esprimere un barge-in, un intervallo di evento o una cella di tabella

Come valuto la gestione dei turni di un agente vocale?

Gli agenti parlati si rompono ai confini: tagliando la parola all'utente, parlandogli sopra o facendo una pausa così lunga che l'utente rinuncia. Lo schema voice_interaction dispone la conversazione come una timeline a doppia traccia — una corsia utente e una corsia agente — ed evidenzia le regioni di sovrapposizione dove entrambi parlano contemporaneamente (Full-Duplex-Bench, 2025). Classifichi ogni sovrapposizione e valuti la gestione complessiva dei turni; l'audio viene riprodotto inline quando fornito.

Una timeline vocale a doppia traccia con una regione di barge-in evidenziataTimeline vocale a doppia traccia con rilevamento dei barge-in e valutazione della gestione dei turni

yaml
annotation_schemes:
  - annotation_type: voice_interaction
    name: turn_taking
    description: "Classify each barge-in/overlap and rate the overall turn-taking."
    turns_key: turns
    speaker_key: speaker
    user_speakers: [user, human, caller]
    overlap_labels: [agent_should_respond, agent_should_resume, backchannel, uncertain]
    rating_scale: 5

Le sovrapposizioni vengono calcolate dai tempi dei turni al momento del rendering, così una conversazione full-duplex che una trascrizione piatta appiattirebbe in "hanno detto entrambi delle cose" diventa un insieme di momenti concreti ed etichettabili.

Come do un punteggio al grounding temporale di un agente video?

La risposta di un agente video a "quando accade l'obiettivo?" è un intervallo, quindi le dai un punteggio come tale. Lo schema temporal_grounding ti offre uno scrubber dove segni il [start, end] gold per ogni prompt di evento, catturando la posizione di riproduzione o digitando i secondi. Quando i dati portano con sé l'intervallo previsto dal modello, una IoU dal vivo e una mini-timeline a due barre si aggiornano man mano che regoli (TimeScope, 2025).

Uno scrubber video con un intervallo gold e una lettura IoU dal vivoSegna gli intervalli gold degli eventi sul video con una IoU dal vivo rispetto alla previsione del modello

yaml
annotation_schemes:
  - annotation_type: temporal_grounding
    name: grounding
    description: "Mark the gold start/end interval for each event. IoU vs prediction updates live."
    video_key: video
    events_key: events

Questo è costruito per la localizzazione previsto-contro-gold, che è un lavoro diverso dall'etichettatura generica di segmenti: stai valutando quanto è vicino lo span del modello alla verità, e vedere la IoU muoversi mentre trascini il confine rende tutto immediato.

E le trascrizioni del parlato, il ragionamento e le tabelle?

Altre tre superfici coprono il resto dello spettro multimodale:

  • Trascrizioni del parlato (speech_transcript): ogni segmento allineato nel tempo è una scheda; tagghi errori ASR/TTS, errori di pronuncia e disfluenze e correggi il testo inline (Speak & Improve, 2025). Questo è il complemento a livello di segmento della vista sulla gestione dei turni.
  • Ragionamento interlacciato (multimodal_reasoning): una trace testo-immagine-strumento resa come blocchi tipizzati; valuti la coerenza di ogni passo e contrassegni le allucinazioni visive dove il ragionamento non segue dall'immagine (Multimodal RewardBench 2, 2025).
  • Tabelle documentali (table_grid): imposti le dimensioni della griglia e clicchi le celle per marcarne il ruolo — dato, intestazione di colonna, intestazione di riga, vuota — catturando la struttura che i bounding box non possono.

Segmenti di trascrizione del parlato con tag di errore per segmento e correzione inlineTagga errori ASR/TTS/di pronuncia per segmento e correggi la trascrizione inline

yaml
annotation_schemes:
  - annotation_type: speech_transcript
    name: speech_errors
    description: "Tag speech errors on each segment and correct the transcript where needed."
    segments_key: segments
    error_types: [asr_error, tts_artifact, mispronunciation, disfluency]
    allow_correction: true

Trace di ragionamento interlacciato con un'allucinazione visiva contrassegnataValuta ogni passo di una trace di ragionamento testo-immagine-strumento per coerenza e allucinazione visiva

Diversi di questi schemi possono girare sullo stesso task, così una singola esecuzione di un agente documentale può essere valutata per struttura della tabella e coerenza del ragionamento contemporaneamente.

Un'immagine di tabella con celle marcate come intestazioni, dati e vuoteAnnota la struttura delle celle delle tabelle documentali: intestazioni di colonna e riga, dati e celle vuote

Come imposto tutto questo?

Ogni superficie è fornita con un esempio eseguibile sotto examples/agent-traces/:

bash
pip install --upgrade potato-annotation
python potato/flask_server.py start examples/agent-traces/temporal-grounding/config.yaml -p 8000

I tuoi dati si inseriscono come turni, segmenti o eventi con timestamp; la superficie deriva la sua timeline da essi al momento del rendering. Per agenti GUI e OS, il pezzo complementare è Valutare gli agenti per uso del computer.

Letture di approfondimento