RLHF 및 선호 데이터 수집하기

RLHF와 모델 정렬을 위한 사람 선호 데이터를 Potato로 수집하는 방법: 쌍대 비교, 루브릭 채점, 근거 수집.

사람 피드백 기반 강화 학습(RLHF)은 모델이 사람의 선호에 맞춰지도록 훈련합니다. 핵심 데이터는 모델 출력을 비교하는 사람의 판단이며, 대개 "이 두 응답 중 어느 쪽이 더 나은가?"입니다. 이 데이터를 잘 수집하는 일은 곧 주석 작업의 문제이며, Potato는 바로 이런 작업을 위해 만들어졌습니다.

배경 지식은 사람 피드백 기반 강화 학습을 참고하십시오.

표준 방식: 쌍대 선호

프롬프트와 두 개의 후보 응답을 보여 주면 주석자가 더 나은 쪽을 고릅니다. 이 판단은 출력을 채점하는 보상 모델을 훈련하며, 보상 모델은 다시 정책 모델을 이끕니다.

yaml

annotation_schemes:
  - annotation_type: pairwise
    name: preference
    description: "Which response better follows the instruction and is more helpful and harmless?"
    mode: binary
    allow_tie: true
  - annotation_type: text
    name: rationale
    description: "One sentence on why you chose it."
    label_requirement:
      required: false

짧은 근거를 함께 수집할 가치가 있습니다. 근거가 있으면 선호 데이터를 감사할 수 있고, 주석자가 품질이 아니라 엉뚱한 요소(길이, 형식)를 최적화한 경우를 찾아낼 수 있습니다.

비교 방식에 대해서는 쌍대 비교 및 최선–최악 척도를, 모델을 직접 맞대어 평가하는 방법은 쌍대 모델 비교를 참고하십시오.

다차원 선호

"어느 쪽이 더 나은가"라는 단일 판단은 트레이드오프를 가립니다. 한 출력이 왜 이기는지에 대한 신호를 수집하려면 루브릭으로 여러 기준을 채점하십시오.

yaml

annotation_schemes:
  - annotation_type: rubric_eval
    name: quality
    description: "Rate the response on each dimension."
    scale_points: 5
    criteria:
      - {name: Helpfulness, description: "Does it actually answer the request?"}
      - {name: Harmlessness, description: "Is it safe and appropriate?"}
      - {name: Honesty, description: "Is it accurate and non-misleading?"}

루브릭 기반 LLM 평가를 참고하십시오.

선호 데이터에 특유한 품질 함정

길이 및 스타일 편향. 주석자는 정확성과 무관하게 더 길거나 더 단호한 답을 선호하는 경우가 많습니다. 가이드라인에 이를 명시하고 주시하십시오.
위치 편향. 어느 응답을 "A"로 보여 줄지 무작위로 정하십시오.
보정 표류. 긴 캠페인 동안 기준이 흔들리지 않도록 기준 예시를 주기적으로 다시 공유하십시오.
일치도. 선호는 주관적입니다. 중복을 두어 수집하고 일치도를 추적하십시오.

RLHF 및 선호 데이터 수집하기

표준 방식: 쌍대 선호

다차원 선호

선호 데이터에 특유한 품질 함정

더 읽을거리