Avaliação de Agentes de Código

Como avaliar agentes de código revisando diffs, saída de terminal e traces de SWE-bench/Aider/Claude Code, com a exibição de trace de código do Potato.

Um agente de código edita arquivos, executa comandos e lê a saída para resolver uma tarefa de programação. Avaliar um deles é como revisar um pull request que também inclui a sessão de terminal: você julga as mudanças no código e os passos que as produziram. Anote trajetórias de SWE-agent, Aider e Claude Code com o Potato, uma ferramenta gratuita e auto-hospedada que renderiza diffs e blocos de terminal para revisão.

Isso combina com benchmarks automatizados como o SWE-bench; a revisão humana pega o patch plausível, mas errado, que passa em um teste fraco.

O que o anotador revisa em uma execução de agente de código?

Diffs: diffs unificados de cada mudança de arquivo, com cores, números de linha e uma barra lateral em árvore de arquivos.
Comandos e saída: blocos de terminal mostrando o que o agente executou e o que retornou.
Raciocínio: os pensamentos do agente entre as ações.

O Potato lê traces de agentes de código, incluindo os formatos de SWE-bench, Aider e Claude Code. Veja Anotação de Agentes de Código e Anotação de Revisão de Código.

O que devo julgar em uma execução de agente de código?

Correção: a mudança resolve a tarefa sem quebrar outras coisas?
Qualidade dos passos: cada edição/comando foi sensato ou foi atrapalhado?
Eficiência: o caminho seguido foi razoável?

yaml

annotation_schemes:
  - annotation_type: per_turn_rating
    name: step_correctness
    description: "Judge each edit or command."
    target: agentic_steps
    rating_type: radio
    labels: ["Correct", "Partially correct", "Incorrect", "Unnecessary"]
  - annotation_type: radio
    name: overall
    description: "Does the final change solve the task?"
    labels: [Solved, Partially solved, Not solved]

Como mantenho a avaliação de agentes de código confiável?

Dê aos anotadores a descrição da tarefa e o contexto do repositório; um diff não tem sentido sem o objetivo.
Para cadeias de raciocínio com primeiro erro, veja Modelos de Recompensa de Processo.
Para assistir a um agente programando em tempo real em vez de revisar uma gravação, veja Avaliação de Agentes ao Vivo.

Avaliação de Agentes de Código

O que o anotador revisa em uma execução de agente de código?

O que devo julgar em uma execução de agente de código?

Como mantenho a avaliação de agentes de código confiável?

Leitura adicional