Anotando trajetórias de agentes
Como anotar passo a passo as trajetórias de agentes de IA, taxonomias de erros, pontuação de gravidade e sucesso em nível de trajetória, usando a avaliação de trajetórias do Potato.
Uma trajetória é a sequência completa de passos que um agente executou: seus raciocínios, chamadas de ferramentas e observações. Anotar uma trajetória significa julgar a execução como um todo e marcar onde os passos individuais deram errado, com uma categoria e uma gravidade para cada erro. É a forma mais rica de avaliação de agentes e os dados por trás dos modelos de recompensa e da depuração direcionada.
Para a referência do recurso, consulte Anotação de agentes.
O que você coleta
- Resultado geral: sucesso, sucesso parcial ou falha.
- Julgamentos por passo: para cada passo, ele foi correto, desnecessário ou errado?
- Categorias de erro: por que um passo foi errado (ferramenta errada, argumentos incorretos, alucinação, repetição em laço, ação insegura…).
- Gravidade: o quão grave foi cada erro, muitas vezes ponderada em uma pontuação.
Configurando a avaliação de trajetórias
O tipo trajectory_eval do Potato renderiza cada passo como um cartão e anexa a ele uma taxonomia de erros por passo com pesos de gravidade:
annotation_schemes:
- annotation_type: trajectory_eval
name: step_evaluation
description: "Evaluate each step for correctness and mark any errors."
steps_key: steps
error_types:
- {name: reasoning, subtypes: [logical_error, factual_error, planning_error]}
- {name: execution, subtypes: [wrong_tool, wrong_args, api_error]}
- {name: safety, subtypes: [harmful_action, data_leak, scope_violation]}
severities:
- {name: minor, weight: -1}
- {name: major, weight: -5}
- {name: critical, weight: -10}
show_score: trueOs pesos de gravidade são agregados em uma pontuação de trajetória, de modo que você pode classificar as execuções e acompanhar regressões entre versões do modelo.
Projetando uma boa taxonomia de erros
A taxonomia é o coração da tarefa. Mantenha-a pequena, exaustiva e mutuamente exclusiva. Um conjunto inicial prático:
- Erros de raciocínio: conclusão errada, evidência ignorada, plano ruim.
- Erros de execução: ferramenta errada, chamada malformada, resultado mal tratado.
- Erros de segurança: ação insegura, comportamento fora de escopo, exposição de dados.
Adicione um campo de texto livre "outro" para que os anotadores não sejam forçados a classificar incorretamente falhas inéditas; depois, promova as notas "outro" recorrentes a categorias nomeadas.
Considerações de qualidade
- A concordância sobre a correção do passo costuma ser alta; a concordância sobre a categoria de erro é mais baixa. Meça ambas, consulte Concordância entre anotadores.
- Trajetórias longas são cansativas; limite o comprimento ou pagine.
- O "primeiro passo errado" costuma ser o que mais importa para o treinamento, consulte Modelos de recompensa de processo.