Anotando trajetórias de agentes

Como anotar passo a passo as trajetórias de agentes de IA, taxonomias de erros, pontuação de gravidade e sucesso em nível de trajetória, usando a avaliação de trajetórias do Potato.

Uma trajetória é a sequência completa de passos que um agente executou: seus raciocínios, chamadas de ferramentas e observações. Anotar uma trajetória significa julgar a execução como um todo e marcar onde os passos individuais deram errado, com uma categoria e uma gravidade para cada erro. O Potato anota trajetórias de agentes passo a passo com rubricas personalizadas, gratuito e auto-hospedado, e produz os dados por trás dos modelos de recompensa e da depuração direcionada.

Para a referência do recurso, consulte Anotação de agentes.

O que você coleta ao anotar uma trajetória?

Resultado geral: sucesso, sucesso parcial ou falha.
Julgamentos por passo: para cada passo, ele foi correto, desnecessário ou errado?
Categorias de erro: por que um passo foi errado (ferramenta errada, argumentos incorretos, alucinação, repetição em laço, ação insegura…).
Gravidade: o quão grave foi cada erro, muitas vezes ponderada em uma pontuação.

Como configuro a avaliação de trajetórias no Potato?

O tipo trajectory_eval do Potato renderiza cada passo como um cartão e anexa a ele uma taxonomia de erros por passo com pesos de gravidade:

yaml

annotation_schemes:
  - annotation_type: trajectory_eval
    name: step_evaluation
    description: "Evaluate each step for correctness and mark any errors."
    steps_key: steps
    error_types:
      - {name: reasoning,  subtypes: [logical_error, factual_error, planning_error]}
      - {name: execution,  subtypes: [wrong_tool, wrong_args, api_error]}
      - {name: safety,     subtypes: [harmful_action, data_leak, scope_violation]}
    severities:
      - {name: minor,    weight: -1}
      - {name: major,    weight: -5}
      - {name: critical, weight: -10}
    show_score: true

Os pesos de gravidade são agregados em uma pontuação de trajetória, de modo que você pode classificar as execuções e acompanhar regressões entre versões do modelo.

Como projeto uma taxonomia de erros de agentes?

A taxonomia é o coração da tarefa. Mantenha-a pequena, exaustiva e mutuamente exclusiva. Um conjunto inicial prático:

Erros de raciocínio: conclusão errada, evidência ignorada, plano ruim.
Erros de execução: ferramenta errada, chamada malformada, resultado mal tratado.
Erros de segurança: ação insegura, comportamento fora de escopo, exposição de dados.

Adicione um campo de texto livre "outro" para que os anotadores não sejam forçados a classificar incorretamente falhas inéditas; depois, promova as notas "outro" recorrentes a categorias nomeadas.

Considerações de qualidade

A concordância sobre a correção do passo costuma ser alta; a concordância sobre a categoria de erro é mais baixa. Meça ambas, consulte Concordância entre anotadores.
Trajetórias longas são cansativas; limite o comprimento ou pagine.
O "primeiro passo errado" costuma ser o que mais importa para o treinamento, consulte Modelos de recompensa de processo.

Anotando trajetórias de agentes

O que você coleta ao anotar uma trajetória?

Como configuro a avaliação de trajetórias no Potato?

Como projeto uma taxonomia de erros de agentes?

Considerações de qualidade

Leituras adicionais