Gli agenti che parlano, guardano video e leggono documenti falliscono in modi che una casella di testo non può mostrare. Gli errori di un agente vocale vivono nei punti di giunzione tra i turni; la risposta di un agente video è un intervallo di tempo, non una frase; l'errore di un agente documentale è una cella di tabella letta male. Ognuno di questi ha bisogno di una superficie di revisione modellata sulla modalità. Potato aggiunge quattro di queste superfici — voce, video, parlato e documento — accanto ai display esistenti per immagini e audio. Il riferimento completo è Valutazione di agenti multimodali.

Ogni modalità ha la propria superficie di revisione: voce, video, parlato e documento Un semplice widget di testo non può esprimere un barge-in, un intervallo di evento o una cella di tabella

Come valuto la gestione dei turni di un agente vocale?

Gli agenti parlati si rompono ai confini: tagliando la parola all'utente, parlandogli sopra o facendo una pausa così lunga che l'utente rinuncia. Lo schema voice_interaction dispone la conversazione come una timeline a doppia traccia — una corsia utente e una corsia agente — ed evidenzia le regioni di sovrapposizione dove entrambi parlano contemporaneamente (Full-Duplex-Bench, 2025). Classifichi ogni sovrapposizione e valuti la gestione complessiva dei turni; l'audio viene riprodotto inline quando fornito.

Una timeline vocale a doppia traccia con una regione di barge-in evidenziata Timeline vocale a doppia traccia con rilevamento dei barge-in e valutazione della gestione dei turni

yaml

annotation_schemes:
  - annotation_type: voice_interaction
    name: turn_taking
    description: "Classify each barge-in/overlap and rate the overall turn-taking."
    turns_key: turns
    speaker_key: speaker
    user_speakers: [user, human, caller]
    overlap_labels: [agent_should_respond, agent_should_resume, backchannel, uncertain]
    rating_scale: 5

Le sovrapposizioni vengono calcolate dai tempi dei turni al momento del rendering, così una conversazione full-duplex che una trascrizione piatta appiattirebbe in "hanno detto entrambi delle cose" diventa un insieme di momenti concreti ed etichettabili.

Come do un punteggio al grounding temporale di un agente video?

La risposta di un agente video a "quando accade l'obiettivo?" è un intervallo, quindi le dai un punteggio come tale. Lo schema temporal_grounding ti offre uno scrubber dove segni il [start, end] gold per ogni prompt di evento, catturando la posizione di riproduzione o digitando i secondi. Quando i dati portano con sé l'intervallo previsto dal modello, una IoU dal vivo e una mini-timeline a due barre si aggiornano man mano che regoli (TimeScope, 2025).

Uno scrubber video con un intervallo gold e una lettura IoU dal vivo Segna gli intervalli gold degli eventi sul video con una IoU dal vivo rispetto alla previsione del modello

yaml

annotation_schemes:
  - annotation_type: temporal_grounding
    name: grounding
    description: "Mark the gold start/end interval for each event. IoU vs prediction updates live."
    video_key: video
    events_key: events

Questo è costruito per la localizzazione previsto-contro-gold, che è un lavoro diverso dall'etichettatura generica di segmenti: stai valutando quanto è vicino lo span del modello alla verità, e vedere la IoU muoversi mentre trascini il confine rende tutto immediato.

E le trascrizioni del parlato, il ragionamento e le tabelle?

Altre tre superfici coprono il resto dello spettro multimodale:

Trascrizioni del parlato (speech_transcript): ogni segmento allineato nel tempo è una scheda; tagghi errori ASR/TTS, errori di pronuncia e disfluenze e correggi il testo inline (Speak & Improve, 2025). Questo è il complemento a livello di segmento della vista sulla gestione dei turni.
Ragionamento interlacciato (multimodal_reasoning): una trace testo-immagine-strumento resa come blocchi tipizzati; valuti la coerenza di ogni passo e contrassegni le allucinazioni visive dove il ragionamento non segue dall'immagine (Multimodal RewardBench 2, 2025).
Tabelle documentali (table_grid): imposti le dimensioni della griglia e clicchi le celle per marcarne il ruolo — dato, intestazione di colonna, intestazione di riga, vuota — catturando la struttura che i bounding box non possono.

Segmenti di trascrizione del parlato con tag di errore per segmento e correzione inline Tagga errori ASR/TTS/di pronuncia per segmento e correggi la trascrizione inline

yaml

annotation_schemes:
  - annotation_type: speech_transcript
    name: speech_errors
    description: "Tag speech errors on each segment and correct the transcript where needed."
    segments_key: segments
    error_types: [asr_error, tts_artifact, mispronunciation, disfluency]
    allow_correction: true

Trace di ragionamento interlacciato con un'allucinazione visiva contrassegnata Valuta ogni passo di una trace di ragionamento testo-immagine-strumento per coerenza e allucinazione visiva

Diversi di questi schemi possono girare sullo stesso task, così una singola esecuzione di un agente documentale può essere valutata per struttura della tabella e coerenza del ragionamento contemporaneamente.

Un'immagine di tabella con celle marcate come intestazioni, dati e vuote Annota la struttura delle celle delle tabelle documentali: intestazioni di colonna e riga, dati e celle vuote

Come imposto tutto questo?

Ogni superficie è fornita con un esempio eseguibile sotto examples/agent-traces/:

bash

pip install --upgrade potato-annotation
python potato/flask_server.py start examples/agent-traces/temporal-grounding/config.yaml -p 8000

I tuoi dati si inseriscono come turni, segmenti o eventi con timestamp; la superficie deriva la sua timeline da essi al momento del rendering. Per agenti GUI e OS, il pezzo complementare è Valutare gli agenti per uso del computer.

Letture di approfondimento

Valutazione di agenti multimodali — il riferimento completo agli schemi
Valutare gli agenti per uso del computer e multimodali — la guida, con una tabella di selezione degli schemi
Valutare gli agenti per uso del computer, passo dopo passo — la metà GUI e OS delle superfici multimodali
Potato 2.6.2: una suite completa e open-source per la valutazione degli agenti — tutto ciò che è nella linea 2.6.x