Como avaliar agentes de IA
Uma visão geral da avaliação de agentes de IA e LLMs com anotação humana, em nível de trajetória, passo, span e comparação, e qual ferramenta do Potato se encaixa em cada caso.
Avaliar um agente de IA significa julgar não apenas sua resposta final, mas o caminho que ele percorreu: o raciocínio, as chamadas de ferramentas e as ações ao longo do processo. A anotação humana ainda é o padrão de referência para isso, porque muitas falhas dos agentes (um passo plausível mas incorreto, uma ação insegura) só uma pessoa consegue detectar de forma confiável. O Potato oferece ferramentas feitas sob medida para cada nível de avaliação de agentes.
Aqui, um agente de IA é um sistema movido por um LLM que executa ações em várias etapas (chamando ferramentas, navegando ou escrevendo código) para concluir uma tarefa. Veja a visão geral da avaliação de agentes e a referência de Anotação agêntica.
Quatro níveis de avaliação
Escolha o nível que corresponde à pergunta que você está fazendo:
- Nível de trajetória: julga a execução inteira. Ela teve sucesso? Foi eficiente e segura? Veja Anotar trajetórias de agentes.
- Nível de passo: julga cada ação. Esta chamada de ferramenta foi correta? Este passo era necessário? Esses são os dados por trás dos modelos de recompensa de processo.
- Nível de span: destaca problemas específicos dentro das saídas, como uma afirmação alucinada ou uma instrução insegura. Veja Detectar alucinações.
- Nível de comparação: julga dois agentes ou duas execuções lado a lado. Veja Comparação de modelos em pares.
O que o Potato processa
O Potato lê traces de agentes em 13 formatos, incluindo chamadas de ferramentas da OpenAI e da Anthropic, ReAct, LangChain, LangFuse, WebArena, SWE-bench, MCP e OpenTelemetry, e os renderiza em telas ajustadas ao tipo de agente:
- Tela de trace do agente para traces de raciocínio e ferramentas.
- Tela de agente web com capturas de tela e sobreposições de ações; veja Avaliação de agentes web.
- Tela de trace de programação com diffs e saída de terminal; veja Avaliação de agentes de programação.
- Tela de agente ao vivo para observar e guiar um agente em tempo real; veja Avaliação de agentes ao vivo.
Como escolher uma abordagem
| Sua pergunta | Abordagem |
|---|---|
| "O agente concluiu a tarefa?" | Rótulo de sucesso da trajetória |
| "Onde exatamente ele errou?" | Taxonomia de erros em nível de passo |
| "Qual versão é melhor?" | Comparação em pares |
| "Quão bom ele é em vários eixos?" | Avaliação por rubrica |
| "A resposta baseada no contexto recuperado é fiel?" | Avaliação RAG |