Skip to content

Evaluación de agentes de uso del ordenador y multimodales

Cómo evaluar con anotación humana agentes de uso del ordenador y de GUI, además de agentes de voz, vídeo y documentos, juzgando cada acción y clic, puntuando la toma de turnos y anclando eventos en el tiempo.

Un agente de uso del ordenador controla una interfaz gráfica como lo haría una persona: lee una captura de pantalla, decide una acción (clic, escribir, desplazar) y actúa. Evaluarlo significa comprobar, paso a paso, si cada acción fue correcta y si el clic realmente cayó sobre el elemento previsto, no solo si la tarea acabó teniendo éxito. Potato es una herramienta de código abierto para la evaluación humana de agentes de uso del ordenador, de GUI, de voz, de vídeo y de documentos, con superficies de anotación creadas a medida para cada modalidad.

Un agente de uso del ordenador (también llamado agente de GUI o de SO) percibe la pantalla como píxeles o un DOM y actúa a través de los mismos controles que tiene un usuario. Benchmarks como OSWorld, ScreenSpot y AndroidWorld puntúan el éxito de la tarea automáticamente; la revisión humana añade lo que la automatización pasa por alto, la acción que produjo el resultado correcto por suerte, o el clic que dio en el botón equivocado pero aun así hizo avanzar la tarea.

¿Qué se juzga en una trayectoria de uso del ordenador?

Cada paso empareja una captura de pantalla (lo que vio el agente) con una acción (lo que hizo). El anotador juzga la acción y, cuando el paso lleva coordenadas de clic, comprueba el marcador de anclaje sobre la captura:

  • Corrección de la acción: correcta, elemento incorrecto, acción incorrecta o alucinada.
  • Anclaje del clic: ¿las coordenadas cayeron sobre el elemento que la acción nombró?
  • Resultado: ¿la ejecución completó la tarea, y en qué paso se equivocó por primera vez?
yaml
annotation_schemes:
  - annotation_type: gui_trajectory
    name: gui_review
    description: "For each step: was the action correct and did the click land right?"
    steps_key: steps
    screenshot_key: screenshot
    action_key: action
    coord_space: normalized
    verdict_options: [correct, wrong_element, wrong_action, hallucinated]

Detectar el primer paso erróneo importa más que un único aprobado/suspenso, porque ese paso es lo que arreglarías o entrenarías; consulta Modelos de recompensa de proceso.

¿Cómo evalúo la toma de turnos de un agente de voz?

Los agentes hablados fallan en las costuras entre turnos: cortando al usuario, hablando por encima de él o pausando demasiado. El esquema voice_interaction dispone la conversación como una línea de tiempo de doble pista y resalta las regiones de solapamiento donde ambos hablantes hablan a la vez, que el anotador clasifica (el agente debería responder, debería reanudar, fue una retroalimentación, o no está claro) y luego valora la toma de turnos en general. Esta es la vista full-duplex que una transcripción plana no puede expresar.

¿Cómo puntúo agentes de vídeo y de documentos?

  • Anclaje temporal de vídeo: para cada indicación de evento, marca el intervalo de oro [start, end]; cuando los datos incluyen un intervalo predicho por un modelo, un IoU en vivo se actualiza según ajustas, de modo que puntúas la localización directamente.
  • Transcripciones de voz: etiqueta errores de ASR/TTS segmento por segmento y corrige el texto en línea.
  • Tablas de documentos: marca la estructura de celdas (encabezados de columna, encabezados de fila, datos, vacías) que las cajas delimitadoras no pueden capturar.
  • Razonamiento intercalado: valora cada paso de una traza texto-imagen-herramienta por su coherencia y señala las alucinaciones visuales.

Cada uno es un esquema independiente en la referencia de agentes multimodales, y varios pueden ejecutarse en la misma tarea.

¿Qué esquema debería usar?

Tipo de agenteEsquemaQué etiquetas
Uso del ordenador / GUIgui_trajectoryCorrección de la acción + anclaje del clic
Voz / habladovoice_interactionGestión de interrupciones y toma de turnos
Vídeotemporal_groundingIntervalos de evento de oro vs. predicción (IoU)
Transcripción de vozspeech_transcriptErrores de ASR/TTS por segmento
Documento / tablatable_gridRoles de la estructura de celdas
Razonamiento multimodalmultimodal_reasoningCoherencia del paso y alucinación visual

Lecturas adicionales