Question 1

Posso avaliar rastros de agentes de programação como Claude Code, Cursor ou SWE-Agent?

Accepted Answer

Sim. O Potato tem conversores de rastros nativos para Claude Code, OpenCode, Cursor, Aider e SWE-Agent. As chamadas de ferramenta são renderizadas com uma interface dedicada: visualização de diff unificado em vermelho/verde para Edit/Write, blocos de terminal monoespaçados escuros para Bash, código com numeração de linhas para Read/Grep e uma barra lateral com árvore de arquivos que agrupa todos os arquivos tocados por operação. Saídas longas se recolhem automaticamente.

Question 2

Posso avaliar agentes de navegação na web?

Accepted Answer

Sim. O Potato inclui uma exibição de Agente Web com sobreposições SVG para marcadores de clique, caixas delimitadoras, trajetos do mouse e indicadores de rolagem. Dois modos: o Modo de Revisão para navegação em filmstrip por capturas de tela pré-gravadas, e o Modo de Criação para navegação ao vivo baseada em iframe com gravação automática das interações. Há conversores de rastros para os formatos WebArena, Mind2Web e Anthropic Computer Use.

Question 3

Posso avaliar sistemas multiagentes com vários agentes cooperando?

Accepted Answer

Sim. O Potato renderiza uma execução multiagente como um grafo de interação clicável de agentes e transferências, e adiciona esquemas para atribuir uma falha ao agente e ao passo responsáveis, revisar cada transferência em busca de desalinhamento entre agentes, pontuar cada agente e a equipe, e marcar contenção de ferramentas e comportamento emergente entre agentes. Veja a documentação de avaliação de equipes multiagentes.

Question 4

Posso avaliar agentes de uso de computador, voz ou vídeo?

Accepted Answer

Sim. O Potato tem esquemas feitos sob medida para agentes multimodais: trajetórias de GUI/uso de computador com capturas de tela por passo e ancoragem de cliques, linhas do tempo de voz full-duplex com detecção de interrupções, ancoragem temporal de vídeo com uma IoU ao vivo em relação à previsão do modelo, marcação de erros em transcrições de fala alinhadas, raciocínio multimodal intercalado e estrutura de grade de tabela de documentos. Veja a documentação de avaliação de agentes multimodais.

Question 5

Os anotadores podem assistir a um agente de IA navegando na web em tempo real?

Accepted Answer

Sim. O modo de Agente ao Vivo conecta um modelo de visão de LLM (Anthropic Claude via Playwright) a um navegador headless. O agente captura telas, o LLM planeja as ações e o Potato transmite a sessão ao anotador via Server-Sent Events. Os anotadores podem pausar, enviar instruções ou assumir o controle manual durante a sessão. Configure pelo tipo de exibição `live_agent`.

Question 6

Posso rebobinar, ramificar ou repetir uma sessão de agente durante a avaliação?

Accepted Answer

Sim. O modo de agente de programação suporta checkpoint/rollback em qualquer etapa e ramificação/repetição para explorar trajetórias alternativas. Útil para avaliação contrafactual, comparação A/B entre decisões do agente e captura de dados de treino de alta qualidade, em que os anotadores refinam de forma iterativa uma execução do agente.

Question 7

Posso anotar erros no nível de cada etapa de uma trajetória de agente?

Accepted Answer

Sim. O esquema trajectory_eval (baseado em TRAIL e AgentRewardBench) exibe cada etapa como um cartão. Os anotadores marcam a correção, classificam os tipos de erro a partir de uma taxonomia configurável com subtipos (raciocínio, execução, segurança etc.), atribuem severidade com pontuações ponderadas e escrevem justificativas por etapa. Uma pontuação de qualidade calculada automaticamente agrega as penalidades de severidade ao longo da trajetória.

Question 8

Posso coletar dados de treino de modelo de recompensa por processo (PRM) e de revisão de código?

Accepted Answer

Sim. O Potato traz esquemas de recompensa por processo e de revisão de código para avaliação no nível de cada etapa de agentes de programação. Ambos os tipos de anotação exportam diretamente para os formatos PRM e DPO usados no treino de RLHF posterior. Veja o projeto de exemplo coding-agent-evaluation.

Question 9

Os anotadores podem pedir ajuda a um LLM enquanto avaliam um agente?

Accepted Answer

Sim. A Barra Lateral de Chat com LLM é um painel recolhível de assistente de IA com conversa em vários turnos. Ela recebe como contexto a descrição da tarefa, o conjunto de rótulos e o texto da instância atual. Há suporte nativo a múltiplos turnos para OpenAI, Anthropic e Ollama. Todas as conversas são registradas como dados comportamentais para análise posterior da colaboração anotador-LLM.

Question 10

Posso usar o Potato com agentes feitos no LangChain?

Accepted Answer

Sim. O Potato converte rastros do LangChain/LangSmith automaticamente. Você também pode configurar a ingestão de rastros em tempo real via webhook — novos rastros aparecem na fila do anotador conforme são gerados.

Question 11

Posso capturar rastros de agentes automaticamente do meu app em LangChain?

Accepted Answer

Sim. Instale `pip install potato-annotation[langchain]` e adicione o `PotatoCallbackHandler` à sua chain. Ele acompanha execuções pai-filho de chain/LLM/ferramenta e envia payloads compatíveis com o LangSmith ao Potato ao concluir a execução raiz. Combinado com o receptor de webhook, você pode ingerir rastros de agentes ao vivo nas filas de anotação sem exportação manual.

Question 12

Quais formatos de rastros de agentes o Potato suporta de imediato?

Accepted Answer

Treze formatos em três categorias. **Frameworks**: LangChain, LangFuse, OpenAI, Anthropic, MCP (Model Context Protocol), OpenTelemetry, ATIF. **Agentes web**: WebArena, rastros web brutos. **Agentes de programação**: Claude Code, Aider, SWE-Agent. Além de um caminho genérico de ingestão JSONL com o esquema `structured_turns` para qualquer formato personalizado. Veja /integrations para a lista completa.

Question 13

Posso combinar vários esquemas de avaliação em uma única tarefa de anotação de agente?

Accepted Answer

Sim. Um projeto de agente de programação pode sobrepor trajectory_eval (erros por etapa), anotação de span (destacar alucinações no raciocínio do agente), comparação par a par (qual agente foi melhor) e avaliações Likert (qualidade geral) no mesmo rastro. A arquitetura multiesquema do Potato faz com que os anotadores vejam todos os esquemas em uma única interface para o mesmo rastro.

Question 14

Preciso de GPU ou chave de API para avaliação de agentes ao vivo?

Accepted Answer

Não. O agente ao vivo suporta o Ollama para inferência totalmente local, sem chave de API. Use qualquer modelo compatível com o Ollama que tenha suporte a visão. Para agentes de programação, qualquer modelo do Ollama funciona.

Question 15

Posso avaliar sistemas multiagente?

Accepted Answer

Sim. O Potato suporta os formatos de rastros do CrewAI, AutoGen e LangGraph. O exemplo de avaliação multiagente mostra como analisar a coordenação entre agentes, o trabalho redundante e a qualidade da comunicação.

Question 16

E se o meu framework de agentes não estiver na lista?

Accepted Answer

Use o conversor genérico ReAct (formato pensamento/ação/observação) ou a API de webhook para enviar rastros em qualquer formato JSON. O Potato detecta automaticamente estruturas comuns. Você também pode escrever um conversor personalizado em Python.

Question 17

Os anotadores podem interagir com os agentes durante a avaliação?

Accepted Answer

Sim. O modo de agente ao vivo permite que os anotadores pausem o agente, enviem instruções de texto ou assumam o controle manual. Para agentes de programação, os anotadores podem fazer rollback para qualquer checkpoint e ramificar com instruções diferentes.

Question 18

Como exporto as anotações de agentes para treino?

Accepted Answer

Use o exportador agent_eval: `python -m potato.export -f agent_eval -o results/`. Para dados de PRM, use `-f prm`. Para pares de preferência DPO/RLHF, use `-f dpo`. A exportação gera o formato JSON/CSV.

Avaliação de agentes

Avaliação de agentes

Ainda tem dúvidas?