주석자 간 일치도 설명

주석자 간 일치도에 대한 실용 가이드입니다. 단순 일치율, Cohen 카파와 Fleiss 카파, Krippendorff 알파, 각 지표를 언제 사용해야 하는지, 그리고 Potato가 이를 어떻게 보고하는지 설명합니다.

주석자 간 일치도(IAA)는 독립적인 주석자들이 같은 레이블을 부여하는 빈도를 측정합니다. 주석 작업이 잘 정의되어 있고 그 결과로 얻은 레이블을 신뢰할 수 있다는 것을 보여주는 표준적인 근거입니다. 일치도가 낮다는 것은 보통 주석자가 부주의하다는 뜻이 아니라 가이드라인이 명확하지 않다는 뜻입니다.

이 주제의 일반적인 명칭은 평가자 간 신뢰도입니다. Potato는 관리자 대시보드에서 일치도를 실시간으로 계산합니다. 품질 관리를 참고하십시오.

단순 일치율만으로는 부족한 이유

가장 단순한 지표는 단순 일치율로, 주석자들이 동일하게 레이블을 부여한 항목의 비율입니다. 문제는 일치의 일부가 우연히 발생한다는 점입니다. 두 주석자가 모두 90%의 비율로 "긍정"을 선택한다면, 무작위로 레이블을 붙이더라도 대부분의 경우에 일치하게 됩니다. 우연 보정 지표는 이 문제를 해결합니다.

우연을 보정한 계수는 다음과 같은 형태를 가집니다.

text

        P_observed − P_expected
  κ =  ─────────────────────────
            1 − P_expected

여기서 P_observed는 실제 일치율이고 P_expected는 우연에 의해 기대되는 일치율입니다. 값이 1이면 완전 일치, 0이면 우연 수준입니다.

실제로 사용하게 될 세 가지

Cohen 카파: 주석자 2명, 범주형 레이블. 한 쌍을 다룰 때의 고전적인 선택지입니다.
Fleiss 카파: 주석자 3명 이상, 범주형 레이블이며 항목마다 서로 다른 평가자가 판정할 수 있는 경우.
Krippendorff 알파: 가장 범용적인 선택지입니다. 주석자 수에 관계없이 동작하고, 결측 데이터를 처리하며, 명목·순서·구간·비율 척도를 모두 지원합니다. Potato가 기본으로 보고하는 지표입니다.

단순한 범주형 쌍에는 카파를 사용하고, 주석자가 많거나 겹침이 불완전하거나 순서가 있는/연속적인 레이블("하나 차이"가 "넷 차이"보다 가볍게 다루어져야 하는 경우)일 때는 Krippendorff 알파를 사용하십시오.

수치 해석

보편적인 기준선은 없지만, 알파/카파에 흔히 쓰이는 대략적인 기준은 다음과 같습니다.

0.80 이상: 그대로 신뢰해도 좋은 수준.
0.67–0.80: 잠정적인 결론에는 사용할 수 있으나, 불일치를 조사할 것.
0.67 미만: 레이블을 신뢰하기 전에 가이드라인을 다시 검토할 것.

이 값들은 합격/불합격을 가르는 기준이 아니라 조사를 유도하는 신호로 다루십시오. 어떤 항목과 어떤 레이블이 불일치를 일으키는지 항상 확인합니다.

Potato에서 측정하기

주석자들이 공유 부분집합에서 겹치도록 한 다음, 일치도 보고를 활성화하십시오.

yaml

agreement_metrics:
  enabled: true
  # Krippendorff's alpha is reported in the admin dashboard.

스팬(span) 작업과 구조화된 작업에서는 관심 있는 수준(정확한 스팬 일치 대 겹침)에서 일치도를 측정하십시오. 문서 수준 지표는 경계의 불일치를 가려버리기 때문입니다.

일치도가 낮을 때

불일치한 항목을 읽어 보십시오. 가이드라인이 모호한 것입니까, 아니면 항목 자체가 정말 어려운 것입니까?
정의를 더 엄밀하게 다듬고, 어려운 사례를 예시로 추가하십시오. 주석 가이드라인 작성하기를 참고하십시오.
다시 파일럿을 진행하십시오. 본질적으로 주관적인 작업에서 일치도가 계속 낮다면, 하나의 정답을 강요하기보다 불일치 자체를 기록하는 방안을 고려하십시오.