Valutare gli agenti per uso del computer e multimodali
Come effettuare la valutazione umana di agenti per uso del computer e GUI, oltre ad agenti vocali, video e per documenti, giudicando ogni azione e click, valutando la gestione dei turni e ancorando gli eventi nel tempo.
Un agente per uso del computer controlla un'interfaccia grafica come farebbe una persona: legge uno screenshot, decide un'azione (click, digitazione, scroll) e agisce. Valutarne uno significa controllare, passo per passo, se ogni azione era giusta e se il click è effettivamente atterrato sull'elemento previsto, non solo se il task alla fine è riuscito. Potato è uno strumento open-source per la valutazione umana di agenti per uso del computer, GUI, voce, video e documenti, con superfici di annotazione apposite per ogni modalità.
Un agente per uso del computer (chiamato anche agente GUI o OS) percepisce lo schermo come pixel o DOM e agisce attraverso gli stessi controlli che ha un utente. Benchmark come OSWorld, ScreenSpot e AndroidWorld assegnano automaticamente un punteggio al successo del task; la revisione umana aggiunge ciò che l'automazione manca, l'azione che ha prodotto l'esito giusto per fortuna, o il click che ha colpito il pulsante sbagliato ma ha comunque fatto avanzare il task.
Cosa giudichi in una traiettoria di uso del computer?
Ogni passo abbina uno screenshot (ciò che l'agente ha visto) a un'azione (ciò che ha fatto). L'annotatore giudica l'azione e, quando il passo porta le coordinate del click, controlla il marcatore di grounding sullo screenshot:
- Correttezza dell'azione: corretta, elemento sbagliato, azione sbagliata o allucinata.
- Grounding del click: le coordinate sono atterrate sull'elemento nominato dall'azione?
- Esito: il run ha completato il task, e a quale passo è andato storto per la prima volta?
annotation_schemes:
- annotation_type: gui_trajectory
name: gui_review
description: "For each step: was the action correct and did the click land right?"
steps_key: steps
screenshot_key: screenshot
action_key: action
coord_space: normalized
verdict_options: [correct, wrong_element, wrong_action, hallucinated]Cogliere il primo passo sbagliato conta più di un singolo pass/fail, perché quel passo è ciò che correggeresti o su cui addestreresti; vedi Modelli di reward di processo.
Come valuto la gestione dei turni di un agente vocale?
Gli agenti parlati falliscono nelle giunzioni tra i turni: interrompendo l'utente, parlandogli sopra o facendo pause troppo lunghe. Lo schema voice_interaction dispone la conversazione come una timeline a doppia traccia ed evidenzia le regioni di sovrapposizione dove entrambi gli interlocutori parlano contemporaneamente, che l'annotatore classifica (l'agente dovrebbe rispondere, dovrebbe riprendere, era un backchannel, o non è chiaro) e poi valuta la gestione complessiva dei turni. È la vista full-duplex che una trascrizione piatta non può esprimere.
Come valuto gli agenti video e per documenti?
- Grounding temporale video: per ogni prompt di evento, segna l'intervallo gold
[start, end]; quando i dati includono l'intervallo previsto da un modello, un IoU dal vivo si aggiorna mentre regoli, così valuti direttamente la localizzazione. - Trascrizioni vocali: tagga gli errori ASR/TTS segmento per segmento e correggi il testo in linea.
- Tabelle documentali: segna la struttura delle celle (intestazioni di colonna, intestazioni di riga, dati, vuote) che i bounding box non possono catturare.
- Ragionamento interlacciato: valuta ogni passo di una traccia testo-immagine-strumento per coerenza e segnala le allucinazioni visive.
Ciascuno è uno schema separato nel riferimento agli agenti multimodali, e diversi possono essere eseguiti sullo stesso task.
Quale schema dovrei usare?
| Tipo di agente | Schema | Cosa etichetti |
|---|---|---|
| Uso del computer / GUI | gui_trajectory | Correttezza dell'azione + grounding del click |
| Voce / parlato | voice_interaction | Gestione dei barge-in e dei turni |
| Video | temporal_grounding | Intervalli gold degli eventi vs. previsione (IoU) |
| Trascrizione vocale | speech_transcript | Errori ASR/TTS per segmento |
| Documento / tabella | table_grid | Ruoli della struttura delle celle |
| Ragionamento multimodale | multimodal_reasoning | Coerenza dei passi e allucinazione visiva |
Approfondimenti
- Valutazione di agenti multimodali — il riferimento completo agli schemi
- Valutazione di agenti web — agenti web a screenshot-e-azione
- Come valutare gli agenti IA — i livelli di valutazione degli agenti
- Come valutare i sistemi multi-agente