평가 척도와 Likert 설계

어노테이션을 위한 평가 척도 설계 방법, Likert와 슬라이더 비교, 몇 개의 점수 단계를 쓸지, 묵종 편향을 피하는 법, 그리고 Potato에서 평가 작업을 만드는 방법을 설명합니다.

평가 척도는 범주가 아니라 정도, 즉 얼마나 긍정적인지, 얼마나 유창한지, 얼마나 유용한지를 포착합니다. 흔히 쓰이는 두 가지 형식은 이산적인 Likert 척도(예: 1~5)와 연속적인 슬라이더입니다. 척도에서의 작은 설계 선택은 사람들이 생각하는 것보다 데이터를 더 크게 바꿉니다.

Likert: 이산적인 단계

비교하기 쉽고 집계하기 쉬운 평가를 원할 때 Likert 척도를 사용합니다.

yaml

annotation_schemes:
  - annotation_type: likert
    name: fluency
    description: "How fluent is this translation?"
    size: 5
    min_label: "Not fluent at all"
    max_label: "Perfectly fluent"

중요한 설계 판단:

몇 단계로 할 것인가? 5단계가 무난한 기본값입니다. 어노테이터가 활용할 수 있다면 7단계가 더 높은 해상도를 줍니다. 짝수 단계는 중립 중간점을 없애 한쪽으로 기울이도록 강제하는데, "중립"이 회피 수단일 때는 유용하지만 중립이 실제로 존재할 때는 위험합니다.
양 끝, 그리고 이상적으로는 각 단계에 라벨을 붙이세요. 라벨이 붙은 단계는 숫자만 있는 경우보다 더 일관되게 해석됩니다.
방향을 일관되게 유지하세요. 모든 척도에서 방향을 맞춰 어노테이터가 습관적으로 뒤집지 않도록 합니다.

슬라이더: 연속적인 값

확신도 백분율이나 감정 강도처럼 기저의 양이 정말로 연속적일 때 slider를 사용합니다.

yaml

annotation_schemes:
  - annotation_type: slider
    name: confidence
    description: "How confident are you in your label?"
    min: 0
    max: 100
    step: 1
    min_label: "Guessing"
    max_label: "Certain"

연속 척도는 해상도를 주지만 일치도는 낮춥니다. 사람들이 "67 대 72"라는 세밀한 감각을 공유하지 않기 때문입니다. 일치도가 필요하면 출력을 구간으로 묶으세요.

설계에서 피해야 할 편향

묵종 편향: 동의하려는 경향. 동의가 기본값이 되지 않도록 표현을 반대로 한 항목을 섞으세요. 묵종 편향을 참고하세요.
중심화 경향: 가운데로 몰리는 현상. 명확한 끝점 라벨과, 적절한 경우 짝수 단계가 이에 맞섭니다.
앵커링: 처음 몇 항목이 기준을 정합니다. 시작 부분에 짧은 보정 세트를 두면 도움이 됩니다.

단일 척도를 넘어서

multirate를 사용하면 많은 항목을 같은 척도로 한 번에 평가할 수 있습니다(예: 검색된 각 문서). RAG 평가를 참고하세요.
rubric_eval로 가중치가 부여된 여러 기준을 채점하세요. 루브릭 기반 LLM 평가를 참고하세요.
MOS 같은 오디오 품질 평가도 동일한 Likert 메커니즘을 사용합니다. 오디오 어노테이션을 참고하세요.

평가 척도와 Likert 설계

Likert: 이산적인 단계

슬라이더: 연속적인 값

설계에서 피해야 할 편향

단일 척도를 넘어서

더 읽어보기