Avaliação de agentes de uso de computador e multimodais
Como avaliar com humanos agentes de uso de computador e GUI, além de agentes de voz, vídeo e documentos, julgando cada ação e clique, pontuando a alternância de turnos e ancorando eventos no tempo.
Um agente de uso de computador controla uma interface gráfica da forma como uma pessoa faria: ele lê uma captura de tela, decide uma ação (clicar, digitar, rolar) e age. Avaliá-lo significa verificar, passo a passo, se cada ação estava certa e se o clique de fato acertou o elemento pretendido, e não apenas se a tarefa acabou tendo sucesso. O Potato é uma ferramenta de código aberto para a avaliação humana de agentes de uso de computador, GUI, voz, vídeo e documentos, com telas de anotação feitas sob medida para cada modalidade.
Um agente de uso de computador (também chamado de agente de GUI ou de SO) percebe a tela como pixels ou um DOM e age pelos mesmos controles que um usuário tem. Benchmarks como OSWorld, ScreenSpot e AndroidWorld pontuam o sucesso da tarefa automaticamente; a revisão humana acrescenta o que a automação não capta, a ação que produziu o resultado certo por sorte, ou o clique que acertou o botão errado mas ainda assim avançou a tarefa.
O que você julga em uma trajetória de uso de computador?
Cada passo emparelha uma captura de tela (o que o agente viu) com uma ação (o que ele fez). O anotador julga a ação e, quando o passo carrega coordenadas de clique, verifica o marcador de ancoragem na captura de tela:
- Correção da ação: correta, elemento errado, ação errada ou alucinada.
- Ancoragem do clique: as coordenadas acertaram o elemento que a ação nomeou?
- Resultado: a execução concluiu a tarefa, e em qual passo ela primeiro errou?
annotation_schemes:
- annotation_type: gui_trajectory
name: gui_review
description: "For each step: was the action correct and did the click land right?"
steps_key: steps
screenshot_key: screenshot
action_key: action
coord_space: normalized
verdict_options: [correct, wrong_element, wrong_action, hallucinated]Capturar o primeiro passo errado importa mais do que um único pass/fail, porque esse passo é o que você corrigiria ou treinaria; veja Modelos de recompensa de processo.
Como avalio a alternância de turnos de um agente de voz?
Os agentes falados falham nas junções entre turnos: cortando o usuário, falando por cima dele ou pausando demais. O esquema voice_interaction dispõe a conversa como uma linha do tempo de faixa dupla e destaca as regiões de sobreposição em que ambos os falantes falam ao mesmo tempo, que o anotador classifica (o agente deveria responder, deveria retomar, foi um backchannel ou está incerto) e então avalia a alternância de turnos geral. Esta é a visão full-duplex que uma transcrição plana não consegue expressar.
Como pontuo agentes de vídeo e de documentos?
- Ancoragem temporal de vídeo: para cada prompt de evento, marque o intervalo
[start, end]de referência; quando os dados incluem um intervalo previsto pelo modelo, uma IoU ao vivo é atualizada conforme você ajusta, então você pontua a localização diretamente. - Transcrições de fala: marque erros de ASR/TTS segmento por segmento e corrija o texto em linha.
- Tabelas de documentos: marque a estrutura de células (cabeçalhos de coluna, cabeçalhos de linha, dados, vazia) que caixas delimitadoras não conseguem capturar.
- Raciocínio intercalado: avalie cada passo de um trace texto-imagem-ferramenta quanto à coerência e sinalize alucinações visuais.
Cada um é um esquema separado na referência de agentes multimodais, e vários podem rodar na mesma tarefa.
Qual esquema devo usar?
| Tipo de agente | Esquema | O que você rotula |
|---|---|---|
| Uso de computador / GUI | gui_trajectory | Correção da ação + ancoragem do clique |
| Voz / falado | voice_interaction | Tratamento de interrupções e alternância de turnos |
| Vídeo | temporal_grounding | Intervalos de eventos de referência vs. previsão (IoU) |
| Transcrição de fala | speech_transcript | Erros de ASR/TTS por segmento |
| Documento / tabela | table_grid | Papéis da estrutura de células |
| Raciocínio multimodal | multimodal_reasoning | Coerência do passo e alucinação visual |
Leitura adicional
- Avaliação multimodal de agentes — a referência completa de esquemas
- Avaliação de agentes web — agentes web de captura de tela e ação
- Como avaliar agentes de IA — os níveis de avaliação de agentes
- Como avaliar sistemas multiagentes