Skip to content

Coletar dados de RLHF e de preferência

Como coletar dados de preferência humana para RLHF e alinhamento de modelos: comparações pareadas, pontuação por rubrica e justificativas, com o Potato.

O aprendizado por reforço a partir de feedback humano (RLHF) treina modelos para que se ajustem às preferências humanas. O dado central são os julgamentos humanos que comparam saídas do modelo, na maioria das vezes "qual destas duas respostas é melhor?". Coletar bem esses dados é um problema de anotação, e é um problema para o qual o Potato foi feito.

Veja aprendizado por reforço a partir de feedback humano para mais contexto.

A receita padrão: preferência pareada

Mostre um prompt e duas respostas candidatas; o anotador escolhe a melhor. Esses julgamentos treinam um modelo de recompensa que pontua as saídas, o que então orienta o modelo de política.

yaml
annotation_schemes:
  - annotation_type: pairwise
    name: preference
    description: "Which response better follows the instruction and is more helpful and harmless?"
    mode: binary
    allow_tie: true
  - annotation_type: text
    name: rationale
    description: "One sentence on why you chose it."
    label_requirement:
      required: false

Vale a pena coletar uma justificativa curta: ela permite auditar os dados de preferência e encontrar casos em que os anotadores otimizaram a coisa errada (extensão, formatação) em vez da qualidade.

Veja Comparação pareada e escala melhor–pior para a mecânica da comparação e Comparação pareada de modelos para avaliar modelos lado a lado.

Preferências multidimensionais

Um único julgamento de "qual é melhor" esconde os trade-offs. Para coletar sinal sobre por que uma saída vence, pontue vários critérios com uma rubrica:

yaml
annotation_schemes:
  - annotation_type: rubric_eval
    name: quality
    description: "Rate the response on each dimension."
    scale_points: 5
    criteria:
      - {name: Helpfulness, description: "Does it actually answer the request?"}
      - {name: Harmlessness, description: "Is it safe and appropriate?"}
      - {name: Honesty, description: "Is it accurate and non-misleading?"}

Veja Avaliação de LLM baseada em rubrica.

Armadilhas de qualidade específicas dos dados de preferência

  • Viés de extensão e estilo. Os anotadores costumam preferir respostas mais longas ou mais assertivas, independentemente da correção. Aponte isso nas diretrizes e fique atento a ele.
  • Viés de posição. Aleatorize qual resposta aparece como "A".
  • Desvio de calibração. Recompartilhe exemplos de referência periodicamente para que os critérios não se desviem ao longo de uma campanha extensa.
  • Concordância. A preferência é subjetiva; colete sobreposição e acompanhe a concordância.

Leitura adicional