Skip to content

Avaliação de agentes de uso de computador e multimodais

Como avaliar com humanos agentes de uso de computador e GUI, além de agentes de voz, vídeo e documentos, julgando cada ação e clique, pontuando a alternância de turnos e ancorando eventos no tempo.

Um agente de uso de computador controla uma interface gráfica da forma como uma pessoa faria: ele lê uma captura de tela, decide uma ação (clicar, digitar, rolar) e age. Avaliá-lo significa verificar, passo a passo, se cada ação estava certa e se o clique de fato acertou o elemento pretendido, e não apenas se a tarefa acabou tendo sucesso. O Potato é uma ferramenta de código aberto para a avaliação humana de agentes de uso de computador, GUI, voz, vídeo e documentos, com telas de anotação feitas sob medida para cada modalidade.

Um agente de uso de computador (também chamado de agente de GUI ou de SO) percebe a tela como pixels ou um DOM e age pelos mesmos controles que um usuário tem. Benchmarks como OSWorld, ScreenSpot e AndroidWorld pontuam o sucesso da tarefa automaticamente; a revisão humana acrescenta o que a automação não capta, a ação que produziu o resultado certo por sorte, ou o clique que acertou o botão errado mas ainda assim avançou a tarefa.

O que você julga em uma trajetória de uso de computador?

Cada passo emparelha uma captura de tela (o que o agente viu) com uma ação (o que ele fez). O anotador julga a ação e, quando o passo carrega coordenadas de clique, verifica o marcador de ancoragem na captura de tela:

  • Correção da ação: correta, elemento errado, ação errada ou alucinada.
  • Ancoragem do clique: as coordenadas acertaram o elemento que a ação nomeou?
  • Resultado: a execução concluiu a tarefa, e em qual passo ela primeiro errou?
yaml
annotation_schemes:
  - annotation_type: gui_trajectory
    name: gui_review
    description: "For each step: was the action correct and did the click land right?"
    steps_key: steps
    screenshot_key: screenshot
    action_key: action
    coord_space: normalized
    verdict_options: [correct, wrong_element, wrong_action, hallucinated]

Capturar o primeiro passo errado importa mais do que um único pass/fail, porque esse passo é o que você corrigiria ou treinaria; veja Modelos de recompensa de processo.

Como avalio a alternância de turnos de um agente de voz?

Os agentes falados falham nas junções entre turnos: cortando o usuário, falando por cima dele ou pausando demais. O esquema voice_interaction dispõe a conversa como uma linha do tempo de faixa dupla e destaca as regiões de sobreposição em que ambos os falantes falam ao mesmo tempo, que o anotador classifica (o agente deveria responder, deveria retomar, foi um backchannel ou está incerto) e então avalia a alternância de turnos geral. Esta é a visão full-duplex que uma transcrição plana não consegue expressar.

Como pontuo agentes de vídeo e de documentos?

  • Ancoragem temporal de vídeo: para cada prompt de evento, marque o intervalo [start, end] de referência; quando os dados incluem um intervalo previsto pelo modelo, uma IoU ao vivo é atualizada conforme você ajusta, então você pontua a localização diretamente.
  • Transcrições de fala: marque erros de ASR/TTS segmento por segmento e corrija o texto em linha.
  • Tabelas de documentos: marque a estrutura de células (cabeçalhos de coluna, cabeçalhos de linha, dados, vazia) que caixas delimitadoras não conseguem capturar.
  • Raciocínio intercalado: avalie cada passo de um trace texto-imagem-ferramenta quanto à coerência e sinalize alucinações visuais.

Cada um é um esquema separado na referência de agentes multimodais, e vários podem rodar na mesma tarefa.

Qual esquema devo usar?

Tipo de agenteEsquemaO que você rotula
Uso de computador / GUIgui_trajectoryCorreção da ação + ancoragem do clique
Voz / faladovoice_interactionTratamento de interrupções e alternância de turnos
Vídeotemporal_groundingIntervalos de eventos de referência vs. previsão (IoU)
Transcrição de falaspeech_transcriptErros de ASR/TTS por segmento
Documento / tabelatable_gridPapéis da estrutura de células
Raciocínio multimodalmultimodal_reasoningCoerência do passo e alucinação visual

Leitura adicional