Skip to content

Avaliação de Agentes de Código

Como avaliar agentes de código revisando diffs, saída de terminal e traces de SWE-bench/Aider/Claude Code, com a exibição de trace de código do Potato.

Um agente de código edita arquivos, executa comandos e lê a saída para resolver uma tarefa de programação. Avaliar um deles é como revisar um pull request que também inclui a sessão de terminal: você julga as mudanças no código e os passos que as produziram. O Potato renderiza diffs unificados e blocos de terminal para que os anotadores revisem uma execução de código do jeito que revisariam um PR.

Isso combina com benchmarks automatizados como o SWE-bench; a revisão humana pega o patch plausível, mas errado, que passa em um teste fraco.

O que o anotador revisa

  • Diffs: diffs unificados de cada mudança de arquivo, com cores, números de linha e uma barra lateral em árvore de arquivos.
  • Comandos e saída: blocos de terminal mostrando o que o agente executou e o que retornou.
  • Raciocínio: os pensamentos do agente entre as ações.

O Potato lê traces de agentes de código, incluindo os formatos de SWE-bench, Aider e Claude Code. Veja Anotação de Agentes de Código e Anotação de Revisão de Código.

O que julgar

  • Correção: a mudança resolve a tarefa sem quebrar outras coisas?
  • Qualidade dos passos: cada edição/comando foi sensato ou foi atrapalhado?
  • Eficiência: o caminho seguido foi razoável?
yaml
annotation_schemes:
  - annotation_type: per_turn_rating
    name: step_correctness
    description: "Judge each edit or command."
    target: agentic_steps
    rating_type: radio
    labels: ["Correct", "Partially correct", "Incorrect", "Unnecessary"]
  - annotation_type: radio
    name: overall
    description: "Does the final change solve the task?"
    labels: [Solved, Partially solved, Not solved]

Considerações de qualidade

  • Dê aos anotadores a descrição da tarefa e o contexto do repositório; um diff não tem sentido sem o objetivo.
  • Para cadeias de raciocínio com primeiro erro, veja Modelos de Recompensa de Processo.
  • Para assistir a um agente programando em tempo real em vez de revisar uma gravação, veja Avaliação de Agentes ao Vivo.

Leitura adicional