L'évaluation des agents web

Comment évaluer des agents de navigation web à l'aide de captures d'écran et de surimpressions d'actions, en jugeant la justesse de chaque action web étape par étape, avec l'affichage des agents web de Potato.

Un agent web accomplit des tâches en naviguant, cliquant, saisissant et faisant défiler les pages. L'évaluer consiste à regarder ce qu'il a vu (la capture d'écran) et ce qu'il a fait (l'action) à chaque étape, puis à juger si cette action était juste. Potato affiche les captures d'écran avec des surimpressions visuelles de chaque action, ce qui permet aux annotateurs de passer en revue une session de navigation comme une pellicule.

C'est le pendant en évaluation humaine de tests de référence comme WebArena et Mind2Web. Voir Annotation d'agents web.

Ce que voit l'annotateur

L'affichage des agents web de Potato montre, à chaque étape :

la capture d'écran de la page à cet instant,
une surimpression qui marque l'action : un cercle à l'endroit du clic, un cadre sur le champ saisi, une flèche pour un défilement,
la description de l'action et l'éventuel élément cible,
une pellicule pour passer d'une étape à l'autre.

Ce qu'il faut juger à chaque étape

La bonne cible ? A-t-il cliqué ou saisi sur le bon élément ?
Le bon type d'action ? Clic, saisie, défilement ou navigation.
Une progression ? L'étape a-t-elle fait avancer la tâche ou gaspillé un tour ?

yaml

annotation_schemes:
  - annotation_type: per_turn_rating
    name: web_action_correctness
    description: "Judge each browsing action against the task."
    target: agentic_steps
    rating_type: radio
    labels: ["Correct", "Wrong target", "Wrong action", "No progress"]

Configurer l'affichage

Pointez Potato vers une trace d'agent web (captures d'écran et actions) et activez l'affichage des agents web. Les traces peuvent provenir d'exports WebArena/VisualWebArena ou de vos propres exécutions au format HAR accompagné de captures d'écran. Voir Annotation d'agents web pour le schéma de la trace.

Considérations de qualité

Les captures d'écran doivent être lisibles ; fixez une largeur maximale raisonnable et veillez à ce que les surimpressions ne masquent pas la cible.
Les longues sessions fatiguent les annotateurs ; la pellicule et les numéros d'étape les aident à garder le fil.
Pour la réussite globale de la tâche, ajoutez une étiquette au niveau de la trajectoire par-dessus les évaluations étape par étape. Voir Annoter les trajectoires d'agents.

L'évaluation des agents web

Ce que voit l'annotateur

Ce qu'il faut juger à chaque étape

Configurer l'affichage

Considérations de qualité

Pour aller plus loin