Cómo evaluar sistemas multiagente
Una guía práctica para evaluar sistemas LLM multiagente, atribuir fallos al agente y traspaso responsables, revisar el grafo de interacción y puntuar a cada agente y al equipo.
Un sistema multiagente son varios agentes LLM (un planificador, un programador, un revisor, etc.) cooperando en una tarea. Evaluarlo significa algo más que puntuar la respuesta final, porque los fallos que importan ocurren entre agentes: una restricción perdida en un traspaso, el agente equivocado tomando el control, un equipo que nunca verifica su trabajo. La unidad de juicio útil es qué agente, qué paso y qué traspaso. Potato es una herramienta de código abierto para la evaluación humana de ejecuciones multiagente, con un conjunto de superficies de anotación creadas a medida para la estructura del equipo.
Aquí un sistema multiagente se refiere a un flujo de trabajo impulsado por LLM donde agentes distintos, cada uno con un rol, intercambian mensajes y se ceden el control. La investigación sobre por qué fallan estos sistemas (la taxonomía MAST, Why Do Multi-Agent LLM Systems Fail?) concluye que una gran parte de los fallos son entre agentes: problemas de especificación, desalineación entre agentes y verificación ausente. Una transcripción plana oculta precisamente esos.
¿Por qué no basta con la evaluación de un solo agente?
Cuando evalúas un agente, juzgas una única secuencia de pensamientos, llamadas a herramientas y observaciones. Un equipo añade modos de fallo que solo existen entre agentes:
- Pérdida en el traspaso: el agente A conoce una restricción que el agente B nunca recibe.
- Atribución errónea: la ejecución falla, pero el agente responsable está aguas arriba de donde el error salió a la superficie.
- Fallo de coordinación: cada agente es competente por separado, pero el equipo entra en bucle, se estanca o nunca verifica.
- Contención de recursos: dos agentes tocan la misma herramienta o archivo a la vez y se bloquean.
Puntuar solo la salida final te dice que el equipo falló, no dónde. La atribución es lo que hace que los datos sean útiles para depurar o entrenar.
¿Cómo atribuyo un fallo multiagente?
La literatura de atribución de fallos (Zhang et al., Which Agent Causes Task Failures and When?, ICML 2025) plantea la etiqueta como una tripleta: el agente responsable, el paso decisivo y un motivo. En Potato, el esquema failure_attribution rellena los selectores de agente y paso a partir de la propia traza, de modo que el anotador elige entre agentes y pasos que realmente ocurrieron:
annotation_schemes:
- annotation_type: radio
name: outcome
description: "Did the system succeed?"
labels: [success, failure]
- annotation_type: failure_attribution
name: attribution
description: "If it failed: which agent, which step, and why?"
steps_key: steps
agent_key: agentCombinar el esquema de resultado con la atribución significa que la tripleta solo se recoge en ejecuciones que realmente fallaron.
¿Cómo reviso la estructura del equipo, no solo la transcripción?
Dos superficies hacen visible la estructura. El grafo de interacción renderiza los agentes como nodos y los traspasos como aristas, y el anotador marca el camino crítico y señala las aristas problemáticas. La revisión de traspasos convierte cada transferencia de control en una ficha para señalar la desalineación y valorar la calidad:
annotation_schemes:
- annotation_type: handoff_review
name: handoffs
description: "For each handoff: flag any misalignment and rate the quality."
steps_key: steps
agent_key: agent
flags: [info_loss, dropped_constraint, garbling, goal_drift]
quality_scale: 5Para la puntuación, la agent_scorecard valora a cada agente en fidelidad al rol, contribución y coordinación, y puntúa al equipo en sus propias dimensiones, de modo que un agente individualmente fuerte dentro de un equipo mal coordinado se hace visible en los números.
¿Qué método debería usar?
- Depurar un pipeline: empieza con el grafo de interacción y la atribución de fallos para localizar dónde se rompen las ejecuciones.
- Comparar patrones de orquestación: añade la ficha de puntuación para puntuar diseños secuenciales vs. jerárquicos vs. de chat grupal en las mismas tareas.
- Construir datos de entrenamiento o recompensa: etiqueta los fallos con granularidad de paso usando los modos MAST (vía
trajectory_eval) para que las etiquetas se vinculen al agente que actúa y al paso. - Errores de concurrencia: usa la línea de tiempo de contención de herramientas para detectar bloqueos mutuos y carreras que una transcripción no puede mostrar.
Mide la concordancia sobre la atribución igual que lo harías con cualquier etiqueta subjetiva; consulta Concordancia entre anotadores.
Lecturas adicionales
- Evaluación de equipos multiagente — la referencia completa de esquemas
- Cómo evaluar agentes de IA — los niveles de evaluación de agentes
- Anotar trayectorias de agentes — taxonomías de errores por paso
- Evaluación de agentes de uso del ordenador y multimodales