Valutare gli agenti per uso del computer e multimodali

Come effettuare la valutazione umana di agenti per uso del computer e GUI, oltre ad agenti vocali, video e per documenti, giudicando ogni azione e click, valutando la gestione dei turni e ancorando gli eventi nel tempo.

Un agente per uso del computer controlla un'interfaccia grafica come farebbe una persona: legge uno screenshot, decide un'azione (click, digitazione, scroll) e agisce. Valutarne uno significa controllare, passo per passo, se ogni azione era giusta e se il click è effettivamente atterrato sull'elemento previsto, non solo se il task alla fine è riuscito. Potato è uno strumento open-source per la valutazione umana di agenti per uso del computer, GUI, voce, video e documenti, con superfici di annotazione apposite per ogni modalità.

Un agente per uso del computer (chiamato anche agente GUI o OS) percepisce lo schermo come pixel o DOM e agisce attraverso gli stessi controlli che ha un utente. Benchmark come OSWorld, ScreenSpot e AndroidWorld assegnano automaticamente un punteggio al successo del task; la revisione umana aggiunge ciò che l'automazione manca, l'azione che ha prodotto l'esito giusto per fortuna, o il click che ha colpito il pulsante sbagliato ma ha comunque fatto avanzare il task.

Cosa giudichi in una traiettoria di uso del computer?

Ogni passo abbina uno screenshot (ciò che l'agente ha visto) a un'azione (ciò che ha fatto). L'annotatore giudica l'azione e, quando il passo porta le coordinate del click, controlla il marcatore di grounding sullo screenshot:

Correttezza dell'azione: corretta, elemento sbagliato, azione sbagliata o allucinata.
Grounding del click: le coordinate sono atterrate sull'elemento nominato dall'azione?
Esito: il run ha completato il task, e a quale passo è andato storto per la prima volta?

yaml

annotation_schemes:
  - annotation_type: gui_trajectory
    name: gui_review
    description: "For each step: was the action correct and did the click land right?"
    steps_key: steps
    screenshot_key: screenshot
    action_key: action
    coord_space: normalized
    verdict_options: [correct, wrong_element, wrong_action, hallucinated]

Cogliere il primo passo sbagliato conta più di un singolo pass/fail, perché quel passo è ciò che correggeresti o su cui addestreresti; vedi Modelli di reward di processo.

Come valuto la gestione dei turni di un agente vocale?

Gli agenti parlati falliscono nelle giunzioni tra i turni: interrompendo l'utente, parlandogli sopra o facendo pause troppo lunghe. Lo schema voice_interaction dispone la conversazione come una timeline a doppia traccia ed evidenzia le regioni di sovrapposizione dove entrambi gli interlocutori parlano contemporaneamente, che l'annotatore classifica (l'agente dovrebbe rispondere, dovrebbe riprendere, era un backchannel, o non è chiaro) e poi valuta la gestione complessiva dei turni. È la vista full-duplex che una trascrizione piatta non può esprimere.

Come valuto gli agenti video e per documenti?

Grounding temporale video: per ogni prompt di evento, segna l'intervallo gold [start, end]; quando i dati includono l'intervallo previsto da un modello, un IoU dal vivo si aggiorna mentre regoli, così valuti direttamente la localizzazione.
Trascrizioni vocali: tagga gli errori ASR/TTS segmento per segmento e correggi il testo in linea.
Tabelle documentali: segna la struttura delle celle (intestazioni di colonna, intestazioni di riga, dati, vuote) che i bounding box non possono catturare.
Ragionamento interlacciato: valuta ogni passo di una traccia testo-immagine-strumento per coerenza e segnala le allucinazioni visive.

Ciascuno è uno schema separato nel riferimento agli agenti multimodali, e diversi possono essere eseguiti sullo stesso task.

Quale schema dovrei usare?

Tipo di agente	Schema	Cosa etichetti
Uso del computer / GUI	`gui_trajectory`	Correttezza dell'azione + grounding del click
Voce / parlato	`voice_interaction`	Gestione dei barge-in e dei turni
Video	`temporal_grounding`	Intervalli gold degli eventi vs. previsione (IoU)
Trascrizione vocale	`speech_transcript`	Errori ASR/TTS per segmento
Documento / tabella	`table_grid`	Ruoli della struttura delle celle
Ragionamento multimodale	`multimodal_reasoning`	Coerenza dei passi e allucinazione visiva

Approfondimenti

Valutazione di agenti multimodali — il riferimento completo agli schemi
Valutazione di agenti web — agenti web a screenshot-e-azione
Come valutare gli agenti IA — i livelli di valutazione degli agenti
Come valutare i sistemi multi-agente