모델 쌍대 비교

두 모델 또는 두 응답을 인간 어노테이터로 일대일 비교하는 방법을 다차원 비교와 편향 통제를 포함하여 Potato로 설명합니다.

두 모델 중 어느 것이 더 나은지 판단하려면, 어노테이터에게 프롬프트와 두 응답을 모두 보여주고 어느 쪽이 이기는지 묻습니다. 많은 프롬프트에 걸쳐 집계하면, 이러한 일대일 판단은 절대 점수보다 더 신뢰할 수 있게 모델의 순위를 매깁니다. 이는 인간의 투표로 구축되는 공개 모델 리더보드의 바탕이 되는 방법입니다.

이는 쌍대 비교를 모델 출력에 적용한 것이며, 많은 비교는 Elo 또는 Bradley–Terry 모델을 통해 하나의 순위로 변환할 수 있습니다.

기본 일대일

yaml

annotation_schemes:
  - annotation_type: pairwise
    name: which_better
    description: "Which response is better overall?"
    mode: binary
    allow_tie: true

다차원 비교

단일한 "더 나음"은 트레이드오프를 가립니다. 모델 A는 더 정확하지만 모델 B는 더 명료할 수 있습니다. 여러 차원을 한 번에 비교하시기 바랍니다.

yaml

annotation_schemes:
  - annotation_type: pairwise
    name: comparison
    description: "Compare the two responses on each dimension."
    mode: multi_dimension
    dimensions: [accuracy, helpfulness, safety]
    require_justification: true

근거 기재를 필수로 하면 데이터를 검증할 수 있게 되고, 어노테이터가 엉뚱한 점을 보상한 사례가 드러납니다.

편향 통제

일대일 데이터는 그 편향 통제만큼의 가치만 지닙니다.

위치 편향: 어느 모델을 "A"로 표시할지 무작위화하시기 바랍니다. 그렇지 않으면 어노테이터가 한쪽을 선호합니다.
길이/문체 편향: 어노테이터는 품질과 무관하게 더 길거나 더 자신감 있어 보이는 텍스트를 선호하는 경향이 있습니다. 가이드라인에서 이를 명시하시기 바랍니다.
장황함 ≠ 품질: 길이가 승패를 좌우하는지 확인할 수 있도록 길이를 기록하는 것을 고려하시기 바랍니다.
일치도: 중복을 수집하고 어노테이터 간 일치도를 추적하시기 바랍니다.

비교 vs. 루브릭

순위가 필요하고 높은 일치도를 원할 때는 쌍대 비교를 사용하시기 바랍니다. 각 모델의 절대적이고 차원별인 프로파일이 필요할 때는 루브릭을 사용하시기 바랍니다. 많은 평가에서는 두 가지를 모두 수행합니다.

모델 쌍대 비교

기본 일대일

다차원 비교

편향 통제

비교 vs. 루브릭

더 읽어보기