Skip to content
Novo na v2.4

Avalie agentes de IA em todos os níveis

Anote rastros de agentes de qualquer framework. Avalie trajetórias inteiras, etapas individuais ou erros específicos de raciocínio. Acompanhe agentes em tempo real. Compare abordagens lado a lado.

5Tipos de exibição
13Formatos de rastros
14Projetos de exemplo
3Backends ao vivo

Cinco tipos de exibição dedicados

Cada tipo de exibição é otimizado para uma modalidade de agente diferente — uso de ferramentas, navegação na web, programação, chat ou observação ao vivo.

🔄

Exibição de rastro de agente

Cartões de etapa com código de cores para agentes que usam ferramentas. Etapas de pensamento, ação, observação e erro, com seções recolhíveis e formatação amigável de JSON.

🌐

Visualizador de rastros de agente web

Capturas de tela com sobreposições SVG mostrando locais de clique, caixas delimitadoras e trajetos de rolagem. Barra de miniaturas em filmstrip para navegação rápida.

💬

Exibição de chat interativo

Conversa ao vivo com agentes de IA ou revisão de conversas gravadas. As avaliações por turno aparecem inline abaixo de cada mensagem.

📡

Visualizador de agente ao vivo

Observação em tempo real com controles de pausar, retomar, enviar instruções e assumir o controle. Transmite as ações do agente via SSE conforme ele trabalha.

💻

Exibição de rastro de programação

Feita para agentes de programação. Visualização de diff unificado, blocos de terminal escuros, leituras de arquivo com numeração de linhas e uma barra lateral com árvore de arquivos.

Esquemas de anotação para agentes

Esquemas dedicados para avaliação estruturada de agentes nos níveis de rastro, etapa e comparação.

trajectory_eval

Avaliação de trajetória

Localização de erros por etapa com taxonomias hierárquicas de erro, pontuação de severidade e um contador de pontuação corrente que diminui de acordo com a severidade.

rubric_eval

Avaliação por rubrica

Grade multicritério no estilo MT-Bench. Defina critérios e escalas de avaliação personalizados. Os anotadores avaliam cada dimensão de forma independente.

pairwise

Comparação par a par

Compare dois rastros de agente lado a lado. Três modos: preferência binária, escala contínua e julgamento multicritério por dimensão.

per_turn_rating

Avaliações por turno

Anexe esquemas de avaliação diretamente aos turnos da conversa. Configure quais tipos de falante são avaliados. As avaliações aparecem inline abaixo de cada turno.

process_reward

Recompensa por processo

Clique na primeira etapa errada e todas as seguintes são marcadas automaticamente. Ou avalie cada etapa de forma independente. Exporte direto para o formato de treino PRM.

code_review

Revisão de código

Anotação no estilo de PR do GitHub, com comentários inline no diff, avaliações de qualidade por arquivo e vereditos de aprovar/rejeitar para a saída do agente de programação.

Importe rastros de qualquer framework

O Potato converte rastros de 13 frameworks de agentes em um formato universal. Use o conversor de CLI ou a ingestão por webhook em tempo real.

ConversorOrigemPrincipais recursos
LangChain / LangSmithEcossistema LangChainExecuções hierárquicas, chamadas de ferramenta
LangfuseObservabilidade LangfuseSpans de observação, pontuações
OpenAIAPI da OpenAIFunction calling, assistants
Anthropic ClaudeAPI da AnthropicUso de ferramentas, blocos de raciocínio
MCPModel Context ProtocolChamadas de ferramenta + recurso
OpenTelemetrySistemas distribuídosHierarquia de spans, atributos
ATIFFormato acadêmicoIntercâmbio padrão
WebArenaBenchmarks webCapturas de tela, alvo de elementos
Navegador brutoGravações de navegadorHAR + capturas de tela
Claude CodeAPI de Mensagens da AnthropicBlocos de uso de ferramentas, diffs de código
AiderSessões de chat do AiderBlocos de edição em Markdown
SWE-AgentBenchmarks de programaçãoPensamento/ação/observação
ReActAgentes genéricosPensamento/ação/observação

Avalie agentes de programação

Renderização dedicada para Claude Code, Aider, SWE-Agent e outros assistentes de programação de IA, com exibições de diff, terminal e arquivos.

Visualização de diff unificado com destaque em vermelho/verde
Blocos de terminal escuros para a saída do bash
Barra lateral com árvore de arquivos mostrando todos os arquivos tocados
Anotação de recompensa por processo para treino de PRM
Revisão de código inline no estilo de PR do GitHub
Conversores para Claude Code, Aider e SWE-Agent
# Quick start
pip install potato-annotation
potato start examples/agent-traces/coding-agent-eval/config.yaml -p 8000

Acompanhe os agentes trabalhando em tempo real

Observe os agentes de programação enquanto leem arquivos, editam código e rodam testes. Intervenha quando eles erram.

Ollama

Totalmente local, sem chave de API. Qualquer modelo compatível com o Ollama.

API da Anthropic

Claude com uso de ferramentas para sessões de agentes de programação.

Claude Agent SDK

Capacidades completas do Claude Code, com uso de ferramentas e operações de arquivo.

Pausar / Retomar
Enviar instruções
Voltar ao checkpoint
Ramificar e repetir

Como o Potato se compara

A única ferramenta gratuita e auto-hospedada com renderização de diff de agentes de programação, anotação PRM, observação ao vivo e conversão de rastros em 13 formatos.

RecursoPotatoLangSmithLangfuseLabel StudioArgillaScale AI
Suporte a formatos de rastros13 formatosSomente LangChainSomente LangfuseGenéricoGenéricoPersonalizado
Anotação por etapatrajectory_eval + PRMLimitadoLimitadoSimNãoSim
Observação de agente em tempo realSimNãoNãoNãoNãoNão
Pausar/retomar/assumir o agenteSimNãoNãoNãoNãoNão
Renderização de diff de códigoSimNãoNãoNãoNãoNão
Renderização da saída de terminalSimNãoNãoNãoNãoNão
Coleta de dados de PRMSimNãoNãoNãoNãoNão
Revisão de código com comentários inlineSimNãoNãoNãoNãoNão
Comparação par a par de agentes3 modosNãoNãoNãoNãoSim
Rubrica multicritérioSimNãoNãoNãoNãoSim
Auto-hospedadoSimNãoSimSimSimNão
GratuitoSimNãoParcialParcialSimNão

14 projetos de exemplo prontos para rodar

Cada exemplo vem com configuração, dados de amostra e documentação. Rode qualquer exemplo em menos de um minuto.

Avaliação de rastro de agente

Sucesso da tarefa, taxonomia de erros MAST, avaliações por turno e anotação de span

Revisão de agente web

Rastros de navegação na web com capturas de tela, sobreposições SVG e filmstrip

Criação de agente web

Os anotadores navegam na web; suas interações viram dados de rastro

Avaliação de agente ao vivo

Acompanhe um agente de IA navegando em tempo real com controles de pausa e instrução

Avaliação interativa de VLM

Observação de modelo de visão-linguagem com pontuação por trajectory_eval

Avaliação SWE-bench

Avaliação de patches de agente de programação com renderização de diff e PRM

Avaliação Anthropic

Avaliação de rastros de uso de ferramentas do Claude com correção por etapa

Avaliação OpenAI

Avaliação de rastros de function calling da OpenAI e taxonomia de erros

Integração com LangChain

Ingestão de rastros em tempo real do LangSmith via webhook

Avaliação multiagente

Rastros de coordenação multiagente do CrewAI, AutoGen e LangGraph

Comparação de agentes

Comparação A/B de agentes lado a lado com preferência binária

Comparação multidimensional

Julgamento par a par por dimensão com justificativa obrigatória

Avaliação de RAG

Pipeline de RAG: relevância da recuperação, fidelidade e citações

Avaliação de agente visual

Acurácia de grounding e pontuação de navegação de agente de GUI

Comece a avaliar agentes hoje

Instale o Potato e rode sua primeira avaliação de agente em menos de cinco minutos. Gratuito, de código aberto e auto-hospedado.