Skip to content

Como avaliar agentes de IA

Uma visão geral da avaliação de agentes de IA e LLMs com anotação humana, em nível de trajetória, passo, span e comparação, e qual ferramenta do Potato se encaixa em cada caso.

Avaliar um agente de IA significa julgar não apenas sua resposta final, mas o caminho que ele percorreu: o raciocínio, as chamadas de ferramentas e as ações ao longo do processo. A anotação humana ainda é o padrão de referência para isso, porque muitas falhas dos agentes (um passo plausível mas incorreto, uma ação insegura) só uma pessoa consegue detectar de forma confiável. O Potato oferece ferramentas feitas sob medida para cada nível de avaliação de agentes.

Aqui, um agente de IA é um sistema movido por um LLM que executa ações em várias etapas (chamando ferramentas, navegando ou escrevendo código) para concluir uma tarefa. Veja a visão geral da avaliação de agentes e a referência de Anotação agêntica.

Quatro níveis de avaliação

Escolha o nível que corresponde à pergunta que você está fazendo:

O que o Potato processa

O Potato lê traces de agentes em 13 formatos, incluindo chamadas de ferramentas da OpenAI e da Anthropic, ReAct, LangChain, LangFuse, WebArena, SWE-bench, MCP e OpenTelemetry, e os renderiza em telas ajustadas ao tipo de agente:

Como escolher uma abordagem

Sua perguntaAbordagem
"O agente concluiu a tarefa?"Rótulo de sucesso da trajetória
"Onde exatamente ele errou?"Taxonomia de erros em nível de passo
"Qual versão é melhor?"Comparação em pares
"Quão bom ele é em vários eixos?"Avaliação por rubrica
"A resposta baseada no contexto recuperado é fiel?"Avaliação RAG

Leitura adicional