Évaluer les agents d'usage informatique et multimodaux

Comment évaluer par annotation humaine les agents d'usage informatique et GUI, ainsi que les agents vocaux, vidéo et documentaires, en jugeant chaque action et chaque clic, en notant la prise de parole et en ancrant les événements dans le temps.

Un agent d'usage informatique contrôle une interface graphique comme le ferait une personne : il lit une capture d'écran, décide d'une action (cliquer, taper, faire défiler) et agit. L'évaluer signifie vérifier, étape par étape, si chaque action était correcte et si le clic a réellement atterri sur l'élément visé, et pas seulement si la tâche a fini par réussir. Potato est un outil open source pour l'évaluation humaine des agents d'usage informatique, GUI, vocaux, vidéo et documentaires, avec des surfaces d'annotation conçues sur mesure pour chaque modalité.

Un agent d'usage informatique (aussi appelé agent GUI ou OS) perçoit l'écran sous forme de pixels ou de DOM et agit via les mêmes contrôles qu'un utilisateur. Des benchmarks comme OSWorld, ScreenSpot et AndroidWorld notent automatiquement la réussite de la tâche ; l'examen humain ajoute ce que l'automatisation manque, l'action qui a produit le bon résultat par chance, ou le clic qui a touché le mauvais bouton mais a tout de même fait avancer la tâche.

Que juge-t-on dans une trajectoire d'usage informatique ?

Chaque étape associe une capture d'écran (ce que l'agent a vu) à une action (ce qu'il a fait). L'annotateur juge l'action et, lorsque l'étape comporte des coordonnées de clic, vérifie le marqueur d'ancrage sur la capture d'écran :

Exactitude de l'action : correcte, mauvais élément, mauvaise action ou hallucinée.
Ancrage du clic : les coordonnées ont-elles atterri sur l'élément nommé par l'action ?
Résultat : l'exécution a-t-elle accompli la tâche, et à quelle étape s'est-elle d'abord trompée ?

yaml

annotation_schemes:
  - annotation_type: gui_trajectory
    name: gui_review
    description: "For each step: was the action correct and did the click land right?"
    steps_key: steps
    screenshot_key: screenshot
    action_key: action
    coord_space: normalized
    verdict_options: [correct, wrong_element, wrong_action, hallucinated]

Repérer la première étape erronée compte davantage qu'un simple réussite/échec, car c'est cette étape que vous corrigeriez ou contre laquelle vous vous entraîneriez ; voir Modèles de récompense de processus.

Comment évaluer la prise de parole d'un agent vocal ?

Les agents parlés échouent aux jonctions entre les tours : couper la parole à l'utilisateur, parler par-dessus lui, ou marquer une pause trop longue. Le schéma voice_interaction dispose la conversation sous forme de chronologie à double piste et met en évidence les régions de chevauchement où les deux interlocuteurs parlent en même temps, que l'annotateur classe (l'agent devrait répondre, devrait reprendre, était un signal d'écoute, ou c'est incertain) puis évalue la prise de parole globale. C'est la vue en duplex intégral qu'une transcription à plat ne peut exprimer.

Comment noter les agents vidéo et documentaires ?

Ancrage temporel vidéo : pour chaque invite d'événement, marquez l'intervalle de référence [start, end] ; lorsque les données incluent un intervalle prédit par un modèle, un IoU en direct se met à jour au fur et à mesure de vos ajustements, de sorte que vous notez directement la localisation.
Transcriptions de parole : marquez les erreurs d'ASR/TTS segment par segment et corrigez le texte en ligne.
Tableaux documentaires : marquez la structure des cellules (en-têtes de colonne, en-têtes de ligne, données, vides) que les boîtes englobantes ne peuvent capturer.
Raisonnement entrelacé : évaluez chaque étape d'une trace texte-image-outil pour sa cohérence et signalez les hallucinations visuelles.

Chacun est un schéma distinct dans la référence des agents multimodaux, et plusieurs peuvent s'exécuter sur la même tâche.

Quel schéma utiliser ?

Type d'agent	Schéma	Ce que vous étiquetez
Usage informatique / GUI	`gui_trajectory`	Exactitude de l'action + ancrage du clic
Vocal / parlé	`voice_interaction`	Gestion des interruptions et prise de parole
Vidéo	`temporal_grounding`	Intervalles d'événements de référence vs prédiction (IoU)
Transcription de parole	`speech_transcript`	Erreurs d'ASR/TTS par segment
Document / tableau	`table_grid`	Rôles de structure des cellules
Raisonnement multimodal	`multimodal_reasoning`	Cohérence des étapes et hallucination visuelle

Pour aller plus loin

Évaluation des agents multimodaux — la référence complète des schémas
Évaluation des agents web — agents web à captures d'écran et actions
Comment évaluer les agents d'IA — les niveaux d'évaluation des agents
Comment évaluer les systèmes multi-agents