판정과 불일치 해소
어노테이터의 의견이 갈릴 때 무엇을 해야 하는지, 판정 워크플로, 다수결 집계, 그리고 MACE처럼 어노테이터를 역량에 따라 가중하는 통계 모델을 설명합니다.
불일치는 자연스럽고 유익합니다. 이를 해소한다는 것은 여러 어노테이터의 라벨을 하나의 신뢰할 수 있는 라벨로 만드는 일이며, 전문가 검토, 집계, 또는 어노테이터를 신뢰도에 따라 가중하는 통계 모델로 수행합니다. 너무 이른 단계에서 하나의 답을 강요하면 어떤 항목이 정말로 어려운지에 대한 신호를 버리게 됩니다.
해소하는 세 가지 방법
-
다수결. 단순하고 투명합니다. 가장 많은 라벨을 채택합니다. 어노테이터들의 수준이 비슷하고 작업이 명확할 때 잘 작동하지만, 부주의한 어노테이터와 신중한 어노테이터를 똑같이 취급합니다.
-
전문가 판정. 불일치가 있는 항목을 전문가에게 보내 최종 결정을 맡깁니다. 가장 정확하지만 가장 비쌉니다. 중요하면서 집계가 믿을 만하지 않은 항목에 사용하십시오.
-
통계적 집계. MACE(Multi-Annotator Competence Estimation) 같은 모델은 각 어노테이터의 일치 패턴에서 신뢰도를 추정하고, 가중된 "최선의 추정" 라벨과 어노테이터별 역량 점수를 산출합니다. 이로써 모든 항목을 일일이 손으로 확인하지 않고도 스패머의 가중치를 자동으로 낮춥니다. 그 바탕이 되는 크라우드소싱 라벨을 위한 잠재 변수 모델의 개념을 참고하십시오.
실용적인 워크플로
- 중첩된 어노테이션을 수집합니다(항목당 여러 사람).
- 다수결이나 MACE로 집계하여 초안 라벨을 얻고, 일치도가 낮은 항목에 표시합니다.
- 표시된 항목만 전문가 판정으로 보냅니다.
- 거기서 배운 점을 가이드라인에 반영합니다.
Potato는 검토자가 모든 어노테이터의 라벨을 나란히 보고 해소된 답을 기록하는 판정 워크플로를 지원합니다.
불일치가 곧 데이터일 때
유머, 공격성, 감정 같은 주관적인 작업에서는 반복되는 불일치가 오류가 아니라 사람들 사이의 실제 차이를 반영할 수 있습니다. 그런 경우에는 하나의 답으로 뭉뚱그리지 말고 라벨의 전체 분포(때로 소프트 라벨 또는 관점주의(perspectivist) 어노테이션이라고 부름)를 유지하는 방안을 고려하십시오. Potato는 합의를 강요하지 않고 분포를 기록하는 것을 지원합니다.