Avalie agentes de IA em todos os níveis
Anote rastros de agentes de qualquer framework. Avalie trajetórias inteiras, etapas individuais ou erros específicos de raciocínio. Acompanhe agentes em tempo real. Compare abordagens lado a lado.
Cinco tipos de exibição dedicados
Cada tipo de exibição é otimizado para uma modalidade de agente diferente — uso de ferramentas, navegação na web, programação, chat ou observação ao vivo.
Exibição de rastro de agente
Cartões de etapa com código de cores para agentes que usam ferramentas. Etapas de pensamento, ação, observação e erro, com seções recolhíveis e formatação amigável de JSON.
Visualizador de rastros de agente web
Capturas de tela com sobreposições SVG mostrando locais de clique, caixas delimitadoras e trajetos de rolagem. Barra de miniaturas em filmstrip para navegação rápida.
Exibição de chat interativo
Conversa ao vivo com agentes de IA ou revisão de conversas gravadas. As avaliações por turno aparecem inline abaixo de cada mensagem.
Visualizador de agente ao vivo
Observação em tempo real com controles de pausar, retomar, enviar instruções e assumir o controle. Transmite as ações do agente via SSE conforme ele trabalha.
Exibição de rastro de programação
Feita para agentes de programação. Visualização de diff unificado, blocos de terminal escuros, leituras de arquivo com numeração de linhas e uma barra lateral com árvore de arquivos.
Esquemas de anotação para agentes
Esquemas dedicados para avaliação estruturada de agentes nos níveis de rastro, etapa e comparação.
Avaliação de trajetória
Localização de erros por etapa com taxonomias hierárquicas de erro, pontuação de severidade e um contador de pontuação corrente que diminui de acordo com a severidade.
Avaliação por rubrica
Grade multicritério no estilo MT-Bench. Defina critérios e escalas de avaliação personalizados. Os anotadores avaliam cada dimensão de forma independente.
Comparação par a par
Compare dois rastros de agente lado a lado. Três modos: preferência binária, escala contínua e julgamento multicritério por dimensão.
Avaliações por turno
Anexe esquemas de avaliação diretamente aos turnos da conversa. Configure quais tipos de falante são avaliados. As avaliações aparecem inline abaixo de cada turno.
Recompensa por processo
Clique na primeira etapa errada e todas as seguintes são marcadas automaticamente. Ou avalie cada etapa de forma independente. Exporte direto para o formato de treino PRM.
Revisão de código
Anotação no estilo de PR do GitHub, com comentários inline no diff, avaliações de qualidade por arquivo e vereditos de aprovar/rejeitar para a saída do agente de programação.
Importe rastros de qualquer framework
O Potato converte rastros de 13 frameworks de agentes em um formato universal. Use o conversor de CLI ou a ingestão por webhook em tempo real.
| Conversor | Origem | Principais recursos |
|---|---|---|
| LangChain / LangSmith | Ecossistema LangChain | Execuções hierárquicas, chamadas de ferramenta |
| Langfuse | Observabilidade Langfuse | Spans de observação, pontuações |
| OpenAI | API da OpenAI | Function calling, assistants |
| Anthropic Claude | API da Anthropic | Uso de ferramentas, blocos de raciocínio |
| MCP | Model Context Protocol | Chamadas de ferramenta + recurso |
| OpenTelemetry | Sistemas distribuídos | Hierarquia de spans, atributos |
| ATIF | Formato acadêmico | Intercâmbio padrão |
| WebArena | Benchmarks web | Capturas de tela, alvo de elementos |
| Navegador bruto | Gravações de navegador | HAR + capturas de tela |
| Claude Code | API de Mensagens da Anthropic | Blocos de uso de ferramentas, diffs de código |
| Aider | Sessões de chat do Aider | Blocos de edição em Markdown |
| SWE-Agent | Benchmarks de programação | Pensamento/ação/observação |
| ReAct | Agentes genéricos | Pensamento/ação/observação |
Avalie agentes de programação
Renderização dedicada para Claude Code, Aider, SWE-Agent e outros assistentes de programação de IA, com exibições de diff, terminal e arquivos.
Acompanhe os agentes trabalhando em tempo real
Observe os agentes de programação enquanto leem arquivos, editam código e rodam testes. Intervenha quando eles erram.
Ollama
Totalmente local, sem chave de API. Qualquer modelo compatível com o Ollama.
API da Anthropic
Claude com uso de ferramentas para sessões de agentes de programação.
Claude Agent SDK
Capacidades completas do Claude Code, com uso de ferramentas e operações de arquivo.
Como o Potato se compara
A única ferramenta gratuita e auto-hospedada com renderização de diff de agentes de programação, anotação PRM, observação ao vivo e conversão de rastros em 13 formatos.
| Recurso | Potato | LangSmith | Langfuse | Label Studio | Argilla | Scale AI |
|---|---|---|---|---|---|---|
| Suporte a formatos de rastros | 13 formatos | Somente LangChain | Somente Langfuse | Genérico | Genérico | Personalizado |
| Anotação por etapa | trajectory_eval + PRM | Limitado | Limitado | Sim | Não | Sim |
| Observação de agente em tempo real | Sim | Não | Não | Não | Não | Não |
| Pausar/retomar/assumir o agente | Sim | Não | Não | Não | Não | Não |
| Renderização de diff de código | Sim | Não | Não | Não | Não | Não |
| Renderização da saída de terminal | Sim | Não | Não | Não | Não | Não |
| Coleta de dados de PRM | Sim | Não | Não | Não | Não | Não |
| Revisão de código com comentários inline | Sim | Não | Não | Não | Não | Não |
| Comparação par a par de agentes | 3 modos | Não | Não | Não | Não | Sim |
| Rubrica multicritério | Sim | Não | Não | Não | Não | Sim |
| Auto-hospedado | Sim | Não | Sim | Sim | Sim | Não |
| Gratuito | Sim | Não | Parcial | Parcial | Sim | Não |
14 projetos de exemplo prontos para rodar
Cada exemplo vem com configuração, dados de amostra e documentação. Rode qualquer exemplo em menos de um minuto.
Avaliação de rastro de agente
Sucesso da tarefa, taxonomia de erros MAST, avaliações por turno e anotação de span
Revisão de agente web
Rastros de navegação na web com capturas de tela, sobreposições SVG e filmstrip
Criação de agente web
Os anotadores navegam na web; suas interações viram dados de rastro
Avaliação de agente ao vivo
Acompanhe um agente de IA navegando em tempo real com controles de pausa e instrução
Avaliação interativa de VLM
Observação de modelo de visão-linguagem com pontuação por trajectory_eval
Avaliação SWE-bench
Avaliação de patches de agente de programação com renderização de diff e PRM
Avaliação Anthropic
Avaliação de rastros de uso de ferramentas do Claude com correção por etapa
Avaliação OpenAI
Avaliação de rastros de function calling da OpenAI e taxonomia de erros
Integração com LangChain
Ingestão de rastros em tempo real do LangSmith via webhook
Avaliação multiagente
Rastros de coordenação multiagente do CrewAI, AutoGen e LangGraph
Comparação de agentes
Comparação A/B de agentes lado a lado com preferência binária
Comparação multidimensional
Julgamento par a par por dimensão com justificativa obrigatória
Avaliação de RAG
Pipeline de RAG: relevância da recuperação, fidelidade e citações
Avaliação de agente visual
Acurácia de grounding e pontuação de navegação de agente de GUI
Comece a avaliar agentes hoje
Instale o Potato e rode sua primeira avaliação de agente em menos de cinco minutos. Gratuito, de código aberto e auto-hospedado.