Skip to content

Avaliação de agentes web

Como avaliar agentes de navegação web com capturas de tela e sobreposições de ação, a correção da ação web por etapa, usando o display de agente web do Potato.

Um agente web realiza tarefas navegando, clicando, digitando e rolando entre páginas. Avaliá-lo significa olhar o que ele viu (a captura de tela) e o que ele fez (a ação) em cada etapa, e julgar se essa ação estava certa. O Potato renderiza as capturas de tela com sobreposições visuais de cada ação para que os anotadores revisem uma sessão de navegação como uma tira de filme.

Esta é a contraparte de avaliação humana de benchmarks como o WebArena e o Mind2Web. Veja Anotação de agentes web.

O que o anotador vê

O display de agente web do Potato mostra, para cada etapa:

  • a captura de tela da página naquele momento,
  • uma sobreposição marcando a ação, um círculo onde clicou, uma caixa no campo em que digitou, uma seta para uma rolagem,
  • a descrição da ação e qualquer elemento de destino,
  • uma tira de filme para navegar entre as etapas.

O que julgar em cada etapa

  • Destino certo? Clicou/​digitou no elemento correto?
  • Tipo de ação certo? Clicar vs. digitar vs. rolar vs. navegar.
  • Progresso? A etapa fez a tarefa avançar ou desperdiçou um turno?
yaml
annotation_schemes:
  - annotation_type: per_turn_rating
    name: web_action_correctness
    description: "Judge each browsing action against the task."
    target: agentic_steps
    rating_type: radio
    labels: ["Correct", "Wrong target", "Wrong action", "No progress"]

Configurando o display

Aponte o Potato para um trace de agente web (capturas de tela mais ações) e ative o display de agente web. Os traces podem vir de exportações do WebArena/VisualWebArena ou das suas próprias execuções no formato HAR mais captura de tela. Veja Anotação de agentes web para o esquema do trace.

Considerações de qualidade

  • As capturas de tela precisam ser legíveis, defina uma largura máxima sensata e impeça que as sobreposições escondam o destino.
  • Sessões longas cansam os anotadores; a tira de filme e os números de etapa ajudam a não perder o lugar.
  • Para o sucesso geral da tarefa, acrescente um rótulo no nível da trajetória além das avaliações por etapa. Veja Anotação de trajetórias de agentes.

Leitura adicional