Coletar dados de RLHF e de preferência

Como coletar dados de preferência humana para RLHF e alinhamento de modelos: comparações pareadas, pontuação por rubrica e justificativas, com o Potato.

O aprendizado por reforço a partir de feedback humano (RLHF) treina modelos para que se ajustem às preferências humanas. O dado central são os julgamentos humanos que comparam saídas do modelo, na maioria das vezes "qual destas duas respostas é melhor?". Coletar bem esses dados é um problema de anotação, e é um problema para o qual o Potato foi feito.

Veja aprendizado por reforço a partir de feedback humano para mais contexto.

A receita padrão: preferência pareada

Mostre um prompt e duas respostas candidatas; o anotador escolhe a melhor. Esses julgamentos treinam um modelo de recompensa que pontua as saídas, o que então orienta o modelo de política.

yaml

annotation_schemes:
  - annotation_type: pairwise
    name: preference
    description: "Which response better follows the instruction and is more helpful and harmless?"
    mode: binary
    allow_tie: true
  - annotation_type: text
    name: rationale
    description: "One sentence on why you chose it."
    label_requirement:
      required: false

Vale a pena coletar uma justificativa curta: ela permite auditar os dados de preferência e encontrar casos em que os anotadores otimizaram a coisa errada (extensão, formatação) em vez da qualidade.

Veja Comparação pareada e escala melhor–pior para a mecânica da comparação e Comparação pareada de modelos para avaliar modelos lado a lado.

Preferências multidimensionais

Um único julgamento de "qual é melhor" esconde os trade-offs. Para coletar sinal sobre por que uma saída vence, pontue vários critérios com uma rubrica:

yaml

annotation_schemes:
  - annotation_type: rubric_eval
    name: quality
    description: "Rate the response on each dimension."
    scale_points: 5
    criteria:
      - {name: Helpfulness, description: "Does it actually answer the request?"}
      - {name: Harmlessness, description: "Is it safe and appropriate?"}
      - {name: Honesty, description: "Is it accurate and non-misleading?"}

Veja Avaliação de LLM baseada em rubrica.

Armadilhas de qualidade específicas dos dados de preferência

Viés de extensão e estilo. Os anotadores costumam preferir respostas mais longas ou mais assertivas, independentemente da correção. Aponte isso nas diretrizes e fique atento a ele.
Viés de posição. Aleatorize qual resposta aparece como "A".
Desvio de calibração. Recompartilhe exemplos de referência periodicamente para que os critérios não se desviem ao longo de uma campanha extensa.
Concordância. A preferência é subjetiva; colete sobreposição e acompanhe a concordância.

Coletar dados de RLHF e de preferência

A receita padrão: preferência pareada

Preferências multidimensionais

Armadilhas de qualidade específicas dos dados de preferência

Leitura adicional