Process reward models e rotulagem em nível de passo

Como coletar dados de recompensa de processo (PRM) rotulando os passos de um agente como corretos ou incorretos, com os modos de primeiro erro e por passo, no Potato.

Um process reward model (PRM) pontua os passos de raciocínio que um agente executa, não apenas sua resposta final. Treinar um deles exige rótulos em nível de passo: para cada passo de uma trajetória, ele estava correto? São esses dados que permitem que um modelo aprenda a raciocinar bem, e não apenas a acertar a resposta por sorte.

Os PRMs contrastam com os outcome reward models, que pontuam somente o resultado final. Rotular em nível de passo detecta o caso em que um modelo chega à resposta certa por meio de um raciocínio falho. Para a referência do recurso, consulte Anotação de recompensa de processo.

Dois modos de rotulagem

O tipo process_reward do Potato suporta os dois esquemas padrão:

Modo de primeiro erro: o anotador marca o primeiro passo que sai errado; todo passo depois dele é automaticamente tratado como comprometido. Rápido e bem ajustado à forma como as falhas de raciocínio se propagam em cascata.
Modo por passo: o anotador avalia cada passo de forma independente como correto ou incorreto. Mais granular, mais trabalhoso.

yaml

annotation_schemes:
  - annotation_type: process_reward
    name: step_rewards
    description: "Mark the first incorrect step. Steps after it are flagged automatically."
    steps_key: structured_turns
    mode: first_error
    first_error:
      correct_color: "#22c55e"
      error_color: "#ef4444"
      downstream_color: "#f97316"
      require_confirmation: true

As cores tornam a cascata visível: passos verdes são bons, o passo vermelho é o primeiro erro e o laranja marca os passos seguintes agora suspeitos.

Quando usar cada modo

Primeiro erro para matemática, programação e raciocínio encadeado, em que um único erro invalida o restante. Mais barato e em geral suficiente.
Por passo quando os passos são independentes, ou quando você precisa de um sinal de recompensa denso para cada passo.

Considerações de qualidade

Defina "passo correto" com precisão: correto e útil, ou apenas não-errado? Um passo redundante mas inofensivo precisa de uma regra.
O raciocínio é subjetivo nas margens; colete sobreposição em uma amostra e verifique a concordância.
Combine com um rótulo de resultado em nível de trajetória para estudar onde bons resultados escondem raciocínio ruim. Consulte Anotação de trajetórias de agentes.

Process reward models e rotulagem em nível de passo

Dois modos de rotulagem

Quando usar cada modo

Considerações de qualidade

Leitura adicional