Avaliação de agentes
Encontre respostas para dúvidas comuns sobre o Potato. Não achou o que procura? Entre no nosso Discord ou consulte a documentação.
Avaliação de agentes
Sim. O Potato tem conversores de rastros nativos para Claude Code, OpenCode, Cursor, Aider e SWE-Agent. As chamadas de ferramenta são renderizadas com uma interface dedicada: visualização de diff unificado em vermelho/verde para Edit/Write, blocos de terminal monoespaçados escuros para Bash, código com numeração de linhas para Read/Grep e uma barra lateral com árvore de arquivos que agrupa todos os arquivos tocados por operação. Saídas longas se recolhem automaticamente.
Sim. O Potato inclui uma exibição de Agente Web com sobreposições SVG para marcadores de clique, caixas delimitadoras, trajetos do mouse e indicadores de rolagem. Dois modos: o Modo de Revisão para navegação em filmstrip por capturas de tela pré-gravadas, e o Modo de Criação para navegação ao vivo baseada em iframe com gravação automática das interações. Há conversores de rastros para os formatos WebArena, Mind2Web e Anthropic Computer Use.
Sim. O modo de Agente ao Vivo conecta um modelo de visão de LLM (Anthropic Claude via Playwright) a um navegador headless. O agente captura telas, o LLM planeja as ações e o Potato transmite a sessão ao anotador via Server-Sent Events. Os anotadores podem pausar, enviar instruções ou assumir o controle manual durante a sessão. Configure pelo tipo de exibição `live_agent`.
Sim. O modo de agente de programação suporta checkpoint/rollback em qualquer etapa e ramificação/repetição para explorar trajetórias alternativas. Útil para avaliação contrafactual, comparação A/B entre decisões do agente e captura de dados de treino de alta qualidade, em que os anotadores refinam de forma iterativa uma execução do agente.
Sim. O esquema trajectory_eval (baseado em TRAIL e AgentRewardBench) exibe cada etapa como um cartão. Os anotadores marcam a correção, classificam os tipos de erro a partir de uma taxonomia configurável com subtipos (raciocínio, execução, segurança etc.), atribuem severidade com pontuações ponderadas e escrevem justificativas por etapa. Uma pontuação de qualidade calculada automaticamente agrega as penalidades de severidade ao longo da trajetória.
Sim. O Potato traz esquemas de recompensa por processo e de revisão de código para avaliação no nível de cada etapa de agentes de programação. Ambos os tipos de anotação exportam diretamente para os formatos PRM e DPO usados no treino de RLHF posterior. Veja o projeto de exemplo coding-agent-evaluation.
Sim. A Barra Lateral de Chat com LLM é um painel recolhível de assistente de IA com conversa em vários turnos. Ela recebe como contexto a descrição da tarefa, o conjunto de rótulos e o texto da instância atual. Há suporte nativo a múltiplos turnos para OpenAI, Anthropic e Ollama. Todas as conversas são registradas como dados comportamentais para análise posterior da colaboração anotador-LLM.
Sim. O Potato converte rastros do LangChain/LangSmith automaticamente. Você também pode configurar a ingestão de rastros em tempo real via webhook — novos rastros aparecem na fila do anotador conforme são gerados.
Sim. Instale `pip install potato-annotation[langchain]` e adicione o `PotatoCallbackHandler` à sua chain. Ele acompanha execuções pai-filho de chain/LLM/ferramenta e envia payloads compatíveis com o LangSmith ao Potato ao concluir a execução raiz. Combinado com o receptor de webhook, você pode ingerir rastros de agentes ao vivo nas filas de anotação sem exportação manual.
Treze formatos em três categorias. **Frameworks**: LangChain, LangFuse, OpenAI, Anthropic, MCP (Model Context Protocol), OpenTelemetry, ATIF. **Agentes web**: WebArena, rastros web brutos. **Agentes de programação**: Claude Code, Aider, SWE-Agent. Além de um caminho genérico de ingestão JSONL com o esquema `structured_turns` para qualquer formato personalizado. Veja /integrations para a lista completa.
Sim. Um projeto de agente de programação pode sobrepor trajectory_eval (erros por etapa), anotação de span (destacar alucinações no raciocínio do agente), comparação par a par (qual agente foi melhor) e avaliações Likert (qualidade geral) no mesmo rastro. A arquitetura multiesquema do Potato faz com que os anotadores vejam todos os esquemas em uma única interface para o mesmo rastro.
Não. O agente ao vivo suporta o Ollama para inferência totalmente local, sem chave de API. Use qualquer modelo compatível com o Ollama que tenha suporte a visão. Para agentes de programação, qualquer modelo do Ollama funciona.
Sim. O Potato suporta os formatos de rastros do CrewAI, AutoGen e LangGraph. O exemplo de avaliação multiagente mostra como analisar a coordenação entre agentes, o trabalho redundante e a qualidade da comunicação.
Use o conversor genérico ReAct (formato pensamento/ação/observação) ou a API de webhook para enviar rastros em qualquer formato JSON. O Potato detecta automaticamente estruturas comuns. Você também pode escrever um conversor personalizado em Python.
Sim. O modo de agente ao vivo permite que os anotadores pausem o agente, enviem instruções de texto ou assumam o controle manual. Para agentes de programação, os anotadores podem fazer rollback para qualquer checkpoint e ramificar com instruções diferentes.
Use o exportador agent_eval: `python -m potato.export -f agent_eval -o results/`. Para dados de PRM, use `-f prm`. Para pares de preferência DPO/RLHF, use `-f dpo`. A exportação gera o formato JSON/CSV.
Ainda tem dúvidas?
Nossa comunidade está aqui para ajudar. Entre no Discord para suporte em tempo real ou consulte a documentação para guias detalhados.