Como avaliar sistemas multiagentes
Um guia prático para avaliar sistemas LLM multiagentes, atribuindo falhas ao agente e à transferência responsáveis, revisando o grafo de interação e pontuando cada agente e a equipe.
Um sistema multiagente são vários agentes LLM (um planejador, um programador, um revisor e assim por diante) cooperando em uma tarefa. Avaliá-lo significa mais do que pontuar a resposta final, porque as falhas que importam acontecem entre agentes: uma restrição perdida em uma transferência, o agente errado assumindo o controle, uma equipe que nunca verifica o próprio trabalho. A unidade útil de julgamento é qual agente, qual passo e qual transferência. O Potato é uma ferramenta de código aberto para a avaliação humana de execuções multiagentes, com um conjunto de telas de anotação feitas sob medida para a estrutura da equipe.
Aqui, um sistema multiagente significa um fluxo de trabalho movido por LLM em que agentes distintos, cada um com um papel, trocam mensagens e transferem o controle. A pesquisa sobre por que esses sistemas falham (a taxonomia MAST, Why Do Multi-Agent LLM Systems Fail?) constata que uma grande parcela das falhas é entre agentes: problemas de especificação, desalinhamento entre agentes e ausência de verificação. Uma transcrição plana esconde exatamente isso.
Por que a avaliação de um único agente não basta?
Quando você avalia um único agente, julga uma única sequência de pensamentos, chamadas de ferramentas e observações. Uma equipe acrescenta modos de falha que só existem entre agentes:
- Perda na transferência: o agente A conhece uma restrição que o agente B nunca recebe.
- Atribuição equivocada: a execução falha, mas o agente responsável está a montante de onde o erro apareceu.
- Falha de coordenação: cada agente é individualmente competente, mas a equipe entra em loop, trava ou nunca verifica.
- Contenção de recursos: dois agentes tocam a mesma ferramenta ou arquivo ao mesmo tempo e entram em deadlock.
Pontuar apenas a saída final diz que a equipe falhou, mas não onde. A atribuição é o que torna os dados úteis para depuração ou treinamento.
Como atribuo uma falha multiagente?
A literatura de atribuição de falhas (Zhang et al., Which Agent Causes Task Failures and When?, ICML 2025) enquadra o rótulo como uma tripla: o agente responsável, o passo decisivo e um motivo. No Potato, o esquema failure_attribution preenche os seletores de agente e de passo a partir do próprio trace, então o anotador escolhe entre agentes e passos que de fato ocorreram:
annotation_schemes:
- annotation_type: radio
name: outcome
description: "Did the system succeed?"
labels: [success, failure]
- annotation_type: failure_attribution
name: attribution
description: "If it failed: which agent, which step, and why?"
steps_key: steps
agent_key: agentCombinar o esquema de resultado com a atribuição significa que a tripla só é coletada em execuções que de fato falharam.
Como reviso a estrutura da equipe, e não apenas a transcrição?
Duas telas tornam a estrutura visível. O grafo de interação renderiza os agentes como nós e as transferências como arestas, e o anotador marca o caminho crítico e sinaliza as arestas problemáticas. A revisão de transferências transforma cada transferência de controle em um cartão para sinalizar o desalinhamento e avaliar a qualidade:
annotation_schemes:
- annotation_type: handoff_review
name: handoffs
description: "For each handoff: flag any misalignment and rate the quality."
steps_key: steps
agent_key: agent
flags: [info_loss, dropped_constraint, garbling, goal_drift]
quality_scale: 5Para a pontuação, o agent_scorecard avalia cada agente quanto à fidelidade ao papel, contribuição e coordenação, e pontua a equipe em suas próprias dimensões, de modo que um agente individualmente forte dentro de uma equipe mal coordenada fica visível nos números.
Qual método devo usar?
- Depurando um pipeline: comece com o grafo de interação e a atribuição de falhas para localizar onde as execuções quebram.
- Comparando padrões de orquestração: adicione o scorecard para pontuar designs sequenciais vs. hierárquicos vs. group-chat nas mesmas tarefas.
- Construindo dados de treinamento ou de recompensa: marque as falhas com granularidade de passo usando os modos MAST (via
trajectory_eval) para que os rótulos se prendam ao agente e ao passo ativos. - Bugs de concorrência: use a linha do tempo de contenção de ferramentas para capturar deadlocks e corridas que uma transcrição não consegue mostrar.
Meça a concordância na atribuição da mesma forma que você faria para qualquer rótulo subjetivo; veja Concordância entre anotadores.
Leitura adicional
- Avaliação de equipes multiagentes — a referência completa de esquemas
- Como avaliar agentes de IA — os níveis de avaliação de agentes
- Anotar trajetórias de agentes — taxonomias de erros por passo
- Avaliação de agentes de uso de computador e multimodais