Collecter des données de RLHF et de préférence

Comment collecter des données de préférence humaine pour le RLHF et l'alignement des modèles : comparaisons par paires, notation par grille et justifications, avec Potato.

L'apprentissage par renforcement à partir de retours humains (RLHF) entraîne les modèles à correspondre aux préférences humaines. La donnée centrale, ce sont les jugements humains qui comparent les sorties du modèle, le plus souvent « laquelle de ces deux réponses est la meilleure ? ». Bien collecter ces données est un problème d'annotation, et c'est un problème pour lequel Potato est fait.

Voir l'apprentissage par renforcement à partir de retours humains pour le contexte.

La recette standard : la préférence par paires

Affichez une consigne et deux réponses candidates ; l'annotateur choisit la meilleure. Ces jugements entraînent un modèle de récompense qui note les sorties, lequel guide ensuite le modèle de politique.

yaml

annotation_schemes:
  - annotation_type: pairwise
    name: preference
    description: "Which response better follows the instruction and is more helpful and harmless?"
    mode: binary
    allow_tie: true
  - annotation_type: text
    name: rationale
    description: "One sentence on why you chose it."
    label_requirement:
      required: false

Une courte justification vaut la peine d'être recueillie : elle vous permet d'auditer les données de préférence et de repérer les cas où les annotateurs ont optimisé la mauvaise chose (longueur, mise en forme) plutôt que la qualité.

Voir Comparaison par paires et échelle meilleur–pire pour la mécanique de la comparaison et Comparaison de modèles par paires pour évaluer des modèles en face-à-face.

Préférences multidimensionnelles

Un seul jugement « meilleure » masque les compromis. Pour recueillir un signal sur pourquoi une sortie l'emporte, notez plusieurs critères à l'aide d'une grille :

yaml

annotation_schemes:
  - annotation_type: rubric_eval
    name: quality
    description: "Rate the response on each dimension."
    scale_points: 5
    criteria:
      - {name: Helpfulness, description: "Does it actually answer the request?"}
      - {name: Harmlessness, description: "Is it safe and appropriate?"}
      - {name: Honesty, description: "Is it accurate and non-misleading?"}

Voir Évaluation de LLM par grille.

Pièges de qualité propres aux données de préférence

Biais de longueur et de style. Les annotateurs préfèrent souvent les réponses plus longues ou plus assurées, indépendamment de leur exactitude. Nommez-le dans les consignes et surveillez-le.
Biais de position. Tirez au sort quelle réponse est affichée comme « A ».
Dérive d'étalonnage. Repartagez périodiquement des exemples de référence pour que les critères ne dérivent pas au fil d'une longue campagne.
Accord. La préférence est subjective ; recueillez du chevauchement et suivez l'accord.

Collecter des données de RLHF et de préférence

La recette standard : la préférence par paires

Préférences multidimensionnelles

Pièges de qualité propres aux données de préférence

Pour aller plus loin