Como avaliar agentes de IA

Uma visão geral da avaliação de agentes de IA e LLMs com anotação humana, em nível de trajetória, passo, span e comparação, e qual ferramenta do Potato se encaixa em cada caso.

Avaliar um agente de IA significa julgar não apenas sua resposta final, mas o caminho que ele percorreu: o raciocínio, as chamadas de ferramentas e as ações ao longo do processo. A anotação humana ainda é o padrão de referência para isso, porque muitas falhas dos agentes (um passo plausível mas incorreto, uma ação insegura) só uma pessoa consegue detectar de forma confiável. O Potato é uma ferramenta de código aberto para a anotação humana de trajetórias de agentes LLM, com uma tela feita sob medida para cada nível de avaliação.

Aqui, um agente de IA é um sistema movido por um LLM que executa ações em várias etapas (chamando ferramentas, navegando ou escrevendo código) para concluir uma tarefa. Veja a visão geral da avaliação de agentes e a referência de Anotação agêntica.

Quais são os níveis de avaliação de agentes de IA?

Escolha o nível que corresponde à pergunta que você está fazendo:

Nível de trajetória: julga a execução inteira. Ela teve sucesso? Foi eficiente e segura? Veja Anotar trajetórias de agentes.
Nível de passo: julga cada ação. Esta chamada de ferramenta foi correta? Este passo era necessário? Esses são os dados por trás dos modelos de recompensa de processo.
Nível de span: destaca problemas específicos dentro das saídas, como uma afirmação alucinada ou uma instrução insegura. Veja Detectar alucinações.
Nível de comparação: julga dois agentes ou duas execuções lado a lado. Veja Comparação de modelos em pares.
Nível de equipe: para sistemas multiagentes, atribui uma falha ao agente, ao passo e à transferência responsáveis. Veja Como avaliar sistemas multiagentes.

Quais formatos de trace de agentes o Potato suporta?

O Potato lê traces de agentes em 13 formatos, incluindo chamadas de ferramentas da OpenAI e da Anthropic, ReAct, LangChain, LangFuse, WebArena, SWE-bench, MCP e OpenTelemetry, e os renderiza em telas ajustadas ao tipo de agente:

Tela de trace do agente para traces de raciocínio e ferramentas.
Tela de agente web com capturas de tela e sobreposições de ações; veja Avaliação de agentes web.
Tela de trace de programação com diffs e saída de terminal; veja Avaliação de agentes de programação.
Tela de agente ao vivo para observar e guiar um agente em tempo real; veja Avaliação de agentes ao vivo.
Telas de agentes multimodais para agentes de uso de computador, voz e vídeo; veja Avaliação de agentes de uso de computador e multimodais.

Qual método de avaliação de agentes devo escolher?

Sua pergunta	Abordagem
"O agente concluiu a tarefa?"	Rótulo de sucesso da trajetória
"Onde exatamente ele errou?"	Taxonomia de erros em nível de passo
"Qual versão é melhor?"	Comparação em pares
"Quão bom ele é em vários eixos?"	Avaliação por rubrica
"A resposta baseada no contexto recuperado é fiel?"	Avaliação RAG
"Qual agente da equipe causou a falha?"	Atribuição multiagente
"O agente de uso de computador clicou na coisa certa?"	Revisão de trajetória de GUI

Como avaliar agentes de IA

Quais são os níveis de avaliação de agentes de IA?

Quais formatos de trace de agentes o Potato suporta?

Qual método de avaliação de agentes devo escolher?

Leitura adicional