Novidade na v2.7

Avalie agentes de IA em todos os níveis

Anote rastros de agentes de qualquer framework. Avalie trajetórias inteiras, etapas individuais ou erros específicos de raciocínio. Acompanhe agentes em tempo real. Compare abordagens lado a lado.

5Tipos de exibição

13Formatos de rastros

14Projetos de exemplo

3Backends ao vivo

Cinco tipos de exibição dedicados

Cada tipo de exibição é otimizado para uma modalidade de agente diferente — uso de ferramentas, navegação na web, programação, chat ou observação ao vivo.

🔄

Exibição de rastro de agente

Cartões de etapa com código de cores para agentes que usam ferramentas. Etapas de pensamento, ação, observação e erro, com seções recolhíveis e formatação amigável de JSON.

🌐

Visualizador de rastros de agente web

Capturas de tela com sobreposições SVG mostrando locais de clique, caixas delimitadoras e trajetos de rolagem. Barra de miniaturas em filmstrip para navegação rápida.

💬

Exibição de chat interativo

Conversa ao vivo com agentes de IA ou revisão de conversas gravadas. As avaliações por turno aparecem inline abaixo de cada mensagem.

📡

Visualizador de agente ao vivo

Observação em tempo real com controles de pausar, retomar, enviar instruções e assumir o controle. Transmite as ações do agente via SSE conforme ele trabalha.

💻

Exibição de rastro de programação

Feita para agentes de programação. Visualização de diff unificado, blocos de terminal escuros, leituras de arquivo com numeração de linhas e uma barra lateral com árvore de arquivos.

Esquemas de anotação para agentes

Esquemas dedicados para avaliação estruturada de agentes nos níveis de rastro, etapa e comparação.

trajectory_eval

Avaliação de trajetória

Localização de erros por etapa com taxonomias hierárquicas de erro, pontuação de severidade e um contador de pontuação corrente que diminui de acordo com a severidade.

rubric_eval

Avaliação por rubrica

Grade multicritério no estilo MT-Bench. Defina critérios e escalas de avaliação personalizados. Os anotadores avaliam cada dimensão de forma independente.

pairwise

Comparação par a par

Compare dois rastros de agente lado a lado. Três modos: preferência binária, escala contínua e julgamento multicritério por dimensão.

per_turn_rating

Avaliações por turno

Anexe esquemas de avaliação diretamente aos turnos da conversa. Configure quais tipos de falante são avaliados. As avaliações aparecem inline abaixo de cada turno.

process_reward

Recompensa por processo

Clique na primeira etapa errada e todas as seguintes são marcadas automaticamente. Ou avalie cada etapa de forma independente. Exporte direto para o formato de treino PRM.

code_review

Revisão de código

Anotação no estilo de PR do GitHub, com comentários inline no diff, avaliações de qualidade por arquivo e vereditos de aprovar/rejeitar para a saída do agente de programação.

Importe rastros de qualquer framework

O Potato converte rastros de 13 frameworks de agentes em um formato universal. Use o conversor de CLI ou a ingestão por webhook em tempo real.

Conversor	Origem	Principais recursos
LangChain / LangSmith	Ecossistema LangChain	Execuções hierárquicas, chamadas de ferramenta
Langfuse	Observabilidade Langfuse	Spans de observação, pontuações
OpenAI	API da OpenAI	Function calling, assistants
Anthropic Claude	API da Anthropic	Uso de ferramentas, blocos de raciocínio
MCP	Model Context Protocol	Chamadas de ferramenta + recurso
OpenTelemetry	Sistemas distribuídos	Hierarquia de spans, atributos
ATIF	Formato acadêmico	Intercâmbio padrão
WebArena	Benchmarks web	Capturas de tela, alvo de elementos
Navegador bruto	Gravações de navegador	HAR + capturas de tela
Claude Code	API de Mensagens da Anthropic	Blocos de uso de ferramentas, diffs de código
Aider	Sessões de chat do Aider	Blocos de edição em Markdown
SWE-Agent	Benchmarks de programação	Pensamento/ação/observação
ReAct	Agentes genéricos	Pensamento/ação/observação

Avalie agentes de programação

Renderização dedicada para Claude Code, Aider, SWE-Agent e outros assistentes de programação de IA, com exibições de diff, terminal e arquivos.

Visualização de diff unificado com destaque em vermelho/verde

Blocos de terminal escuros para a saída do bash

Barra lateral com árvore de arquivos mostrando todos os arquivos tocados

Anotação de recompensa por processo para treino de PRM

Revisão de código inline no estilo de PR do GitHub

Conversores para Claude Code, Aider e SWE-Agent

# Quick start

pip install potato-annotation

potato start examples/agent-traces/coding-agent-eval/config.yaml -p 8000

Acompanhe os agentes trabalhando em tempo real

Observe os agentes de programação enquanto leem arquivos, editam código e rodam testes. Intervenha quando eles erram.

Ollama

Totalmente local, sem chave de API. Qualquer modelo compatível com o Ollama.

API da Anthropic

Claude com uso de ferramentas para sessões de agentes de programação.

Claude Agent SDK

Capacidades completas do Claude Code, com uso de ferramentas e operações de arquivo.

Pausar / Retomar

Enviar instruções

Voltar ao checkpoint

Ramificar e repetir

Como o Potato se compara

A única ferramenta gratuita e auto-hospedada com renderização de diff de agentes de programação, anotação PRM, observação ao vivo e conversão de rastros em 13 formatos.

Recurso	Potato	LangSmith	Langfuse	Label Studio	Argilla	Scale AI
Suporte a formatos de rastros	13 formatos	Somente LangChain	Somente Langfuse	Genérico	Genérico	Personalizado
Anotação por etapa	trajectory_eval + PRM	Limitado	Limitado	Sim	Não	Sim
Observação de agente em tempo real	Sim	Não	Não	Não	Não	Não
Pausar/retomar/assumir o agente	Sim	Não	Não	Não	Não	Não
Renderização de diff de código	Sim	Não	Não	Não	Não	Não
Renderização da saída de terminal	Sim	Não	Não	Não	Não	Não
Coleta de dados de PRM	Sim	Não	Não	Não	Não	Não
Revisão de código com comentários inline	Sim	Não	Não	Não	Não	Não
Comparação par a par de agentes	3 modos	Não	Não	Não	Não	Sim
Rubrica multicritério	Sim	Não	Não	Não	Não	Sim
Auto-hospedado	Sim	Não	Sim	Sim	Sim	Não
Gratuito	Sim	Não	Parcial	Parcial	Sim	Não

14 projetos de exemplo prontos para rodar

Cada exemplo vem com configuração, dados de amostra e documentação. Rode qualquer exemplo em menos de um minuto.

Avaliação de rastro de agente

Sucesso da tarefa, taxonomia de erros MAST, avaliações por turno e anotação de span

Revisão de agente web

Rastros de navegação na web com capturas de tela, sobreposições SVG e filmstrip

Criação de agente web

Os anotadores navegam na web; suas interações viram dados de rastro

Avaliação de agente ao vivo

Acompanhe um agente de IA navegando em tempo real com controles de pausa e instrução

Avaliação interativa de VLM

Observação de modelo de visão-linguagem com pontuação por trajectory_eval

Avaliação SWE-bench

Avaliação de patches de agente de programação com renderização de diff e PRM

Avaliação Anthropic

Avaliação de rastros de uso de ferramentas do Claude com correção por etapa

Avaliação OpenAI

Avaliação de rastros de function calling da OpenAI e taxonomia de erros

Integração com LangChain

Ingestão de rastros em tempo real do LangSmith via webhook

Avaliação multiagente

Rastros de coordenação multiagente do CrewAI, AutoGen e LangGraph

Comparação de agentes

Comparação A/B de agentes lado a lado com preferência binária

Comparação multidimensional

Julgamento par a par por dimensão com justificativa obrigatória

Avaliação de RAG

Pipeline de RAG: relevância da recuperação, fidelidade e citações

Avaliação de agente visual

Acurácia de grounding e pontuação de navegação de agente de GUI

Comece a avaliar agentes hoje

Instale o Potato e rode sua primeira avaliação de agente em menos de cinco minutos. Gratuito, de código aberto e auto-hospedado.

Começar Ler a documentação