Avaliação de agentes web
Como avaliar agentes de navegação web com capturas de tela e sobreposições de ação, a correção da ação web por etapa, usando o display de agente web do Potato.
Um agente web realiza tarefas navegando, clicando, digitando e rolando entre páginas. Avaliá-lo significa olhar o que ele viu (a captura de tela) e o que ele fez (a ação) em cada etapa, e julgar se essa ação estava certa. O Potato renderiza as capturas de tela com sobreposições visuais de cada ação para que os anotadores revisem uma sessão de navegação como uma tira de filme.
Esta é a contraparte de avaliação humana de benchmarks como o WebArena e o Mind2Web. Veja Anotação de agentes web.
O que o anotador vê
O display de agente web do Potato mostra, para cada etapa:
- a captura de tela da página naquele momento,
- uma sobreposição marcando a ação, um círculo onde clicou, uma caixa no campo em que digitou, uma seta para uma rolagem,
- a descrição da ação e qualquer elemento de destino,
- uma tira de filme para navegar entre as etapas.
O que julgar em cada etapa
- Destino certo? Clicou/digitou no elemento correto?
- Tipo de ação certo? Clicar vs. digitar vs. rolar vs. navegar.
- Progresso? A etapa fez a tarefa avançar ou desperdiçou um turno?
annotation_schemes:
- annotation_type: per_turn_rating
name: web_action_correctness
description: "Judge each browsing action against the task."
target: agentic_steps
rating_type: radio
labels: ["Correct", "Wrong target", "Wrong action", "No progress"]Configurando o display
Aponte o Potato para um trace de agente web (capturas de tela mais ações) e ative o display de agente web. Os traces podem vir de exportações do WebArena/VisualWebArena ou das suas próprias execuções no formato HAR mais captura de tela. Veja Anotação de agentes web para o esquema do trace.
Considerações de qualidade
- As capturas de tela precisam ser legíveis, defina uma largura máxima sensata e impeça que as sobreposições escondam o destino.
- Sessões longas cansam os anotadores; a tira de filme e os números de etapa ajudam a não perder o lugar.
- Para o sucesso geral da tarefa, acrescente um rótulo no nível da trajetória além das avaliações por etapa. Veja Anotação de trajetórias de agentes.