RLHF と選好データの収集

RLHF とモデルのアライメントに向けて、人間の選好データ（ペア比較、ルーブリック採点、根拠）を Potato で収集する方法。

人間のフィードバックによる強化学習（RLHF）は、人間の選好に合わせてモデルを訓練します。中心となるデータは、モデル出力を比較する人間の判断、多くの場合「この 2 つの応答のどちらが優れているか？」です。そのデータをうまく集めることはアノテーションの問題であり、Potato はまさにそのために作られています。

背景は人間のフィードバックによる強化学習を参照してください。

標準的な進め方：ペア選好

プロンプトと 2 つの候補応答を見せ、アノテーターが優れている方を選びます。これらの判断は出力を採点する報酬モデルを訓練し、それがポリシーモデルを導きます。

yaml

annotation_schemes:
  - annotation_type: pairwise
    name: preference
    description: "Which response better follows the instruction and is more helpful and harmless?"
    mode: binary
    allow_tie: true
  - annotation_type: text
    name: rationale
    description: "One sentence on why you chose it."
    label_requirement:
      required: false

短い根拠を集めておく価値はあります。選好データを検証でき、アノテーターが品質ではなく誤った要素（長さ、書式）を最適化してしまったケースを見つけられます。

比較の仕組みはペア比較とベスト–ワースト尺度法を、モデル同士を直接対決させる評価はモデルのペア比較を参照してください。

多次元の選好

「どちらが優れているか」という単一の判断は、トレードオフを覆い隠します。どの出力がなぜ勝つのかという信号を集めるには、ルーブリックで複数の基準を採点します。

yaml

annotation_schemes:
  - annotation_type: rubric_eval
    name: quality
    description: "Rate the response on each dimension."
    scale_points: 5
    criteria:
      - {name: Helpfulness, description: "Does it actually answer the request?"}
      - {name: Harmlessness, description: "Is it safe and appropriate?"}
      - {name: Honesty, description: "Is it accurate and non-misleading?"}

ルーブリックに基づく LLM 評価を参照してください。

選好データ特有の品質上の落とし穴

長さとスタイルのバイアス。 アノテーターは、正しさに関係なく、長い応答や自信のある応答を好みがちです。これをガイドラインで明示し、注意して見張ってください。
位置バイアス。 どの応答を「A」として表示するかをランダム化します。
キャリブレーションのずれ。 長期のキャンペーンで基準がずれないよう、アンカー例を定期的に共有し直します。
一致度。 選好は主観的です。重複を集めて一致度を追跡してください。

RLHF と選好データの収集

標準的な進め方：ペア選好

多次元の選好

選好データ特有の品質上の落とし穴

さらに読む