Coletar dados de RLHF e de preferência
Como coletar dados de preferência humana para RLHF e alinhamento de modelos: comparações pareadas, pontuação por rubrica e justificativas, com o Potato.
O aprendizado por reforço a partir de feedback humano (RLHF) treina modelos para que se ajustem às preferências humanas. O dado central são os julgamentos humanos que comparam saídas do modelo, na maioria das vezes "qual destas duas respostas é melhor?". Coletar bem esses dados é um problema de anotação, e é um problema para o qual o Potato foi feito.
Veja aprendizado por reforço a partir de feedback humano para mais contexto.
A receita padrão: preferência pareada
Mostre um prompt e duas respostas candidatas; o anotador escolhe a melhor. Esses julgamentos treinam um modelo de recompensa que pontua as saídas, o que então orienta o modelo de política.
annotation_schemes:
- annotation_type: pairwise
name: preference
description: "Which response better follows the instruction and is more helpful and harmless?"
mode: binary
allow_tie: true
- annotation_type: text
name: rationale
description: "One sentence on why you chose it."
label_requirement:
required: falseVale a pena coletar uma justificativa curta: ela permite auditar os dados de preferência e encontrar casos em que os anotadores otimizaram a coisa errada (extensão, formatação) em vez da qualidade.
Veja Comparação pareada e escala melhor–pior para a mecânica da comparação e Comparação pareada de modelos para avaliar modelos lado a lado.
Preferências multidimensionais
Um único julgamento de "qual é melhor" esconde os trade-offs. Para coletar sinal sobre por que uma saída vence, pontue vários critérios com uma rubrica:
annotation_schemes:
- annotation_type: rubric_eval
name: quality
description: "Rate the response on each dimension."
scale_points: 5
criteria:
- {name: Helpfulness, description: "Does it actually answer the request?"}
- {name: Harmlessness, description: "Is it safe and appropriate?"}
- {name: Honesty, description: "Is it accurate and non-misleading?"}Veja Avaliação de LLM baseada em rubrica.
Armadilhas de qualidade específicas dos dados de preferência
- Viés de extensão e estilo. Os anotadores costumam preferir respostas mais longas ou mais assertivas, independentemente da correção. Aponte isso nas diretrizes e fique atento a ele.
- Viés de posição. Aleatorize qual resposta aparece como "A".
- Desvio de calibração. Recompartilhe exemplos de referência periodicamente para que os critérios não se desviem ao longo de uma campanha extensa.
- Concordância. A preferência é subjetiva; colete sobreposição e acompanhe a concordância.