Avaliação de Agentes de Código
Como avaliar agentes de código revisando diffs, saída de terminal e traces de SWE-bench/Aider/Claude Code, com a exibição de trace de código do Potato.
Um agente de código edita arquivos, executa comandos e lê a saída para resolver uma tarefa de programação. Avaliar um deles é como revisar um pull request que também inclui a sessão de terminal: você julga as mudanças no código e os passos que as produziram. O Potato renderiza diffs unificados e blocos de terminal para que os anotadores revisem uma execução de código do jeito que revisariam um PR.
Isso combina com benchmarks automatizados como o SWE-bench; a revisão humana pega o patch plausível, mas errado, que passa em um teste fraco.
O que o anotador revisa
- Diffs: diffs unificados de cada mudança de arquivo, com cores, números de linha e uma barra lateral em árvore de arquivos.
- Comandos e saída: blocos de terminal mostrando o que o agente executou e o que retornou.
- Raciocínio: os pensamentos do agente entre as ações.
O Potato lê traces de agentes de código, incluindo os formatos de SWE-bench, Aider e Claude Code. Veja Anotação de Agentes de Código e Anotação de Revisão de Código.
O que julgar
- Correção: a mudança resolve a tarefa sem quebrar outras coisas?
- Qualidade dos passos: cada edição/comando foi sensato ou foi atrapalhado?
- Eficiência: o caminho seguido foi razoável?
annotation_schemes:
- annotation_type: per_turn_rating
name: step_correctness
description: "Judge each edit or command."
target: agentic_steps
rating_type: radio
labels: ["Correct", "Partially correct", "Incorrect", "Unnecessary"]
- annotation_type: radio
name: overall
description: "Does the final change solve the task?"
labels: [Solved, Partially solved, Not solved]Considerações de qualidade
- Dê aos anotadores a descrição da tarefa e o contexto do repositório; um diff não tem sentido sem o objetivo.
- Para cadeias de raciocínio com primeiro erro, veja Modelos de Recompensa de Processo.
- Para assistir a um agente programando em tempo real em vez de revisar uma gravação, veja Avaliação de Agentes ao Vivo.