판정과 불일치 해소

어노테이터의 의견이 갈릴 때 무엇을 해야 하는지, 판정 워크플로, 다수결 집계, 그리고 MACE처럼 어노테이터를 역량에 따라 가중하는 통계 모델을 설명합니다.

불일치는 자연스럽고 유익합니다. 이를 해소한다는 것은 여러 어노테이터의 라벨을 하나의 신뢰할 수 있는 라벨로 만드는 일이며, 전문가 검토, 집계, 또는 어노테이터를 신뢰도에 따라 가중하는 통계 모델로 수행합니다. 너무 이른 단계에서 하나의 답을 강요하면 어떤 항목이 정말로 어려운지에 대한 신호를 버리게 됩니다.

해소하는 세 가지 방법

다수결. 단순하고 투명합니다. 가장 많은 라벨을 채택합니다. 어노테이터들의 수준이 비슷하고 작업이 명확할 때 잘 작동하지만, 부주의한 어노테이터와 신중한 어노테이터를 똑같이 취급합니다.
전문가 판정. 불일치가 있는 항목을 전문가에게 보내 최종 결정을 맡깁니다. 가장 정확하지만 가장 비쌉니다. 중요하면서 집계가 믿을 만하지 않은 항목에 사용하십시오.
통계적 집계. MACE(Multi-Annotator Competence Estimation) 같은 모델은 각 어노테이터의 일치 패턴에서 신뢰도를 추정하고, 가중된 "최선의 추정" 라벨과 어노테이터별 역량 점수를 산출합니다. 이로써 모든 항목을 일일이 손으로 확인하지 않고도 스패머의 가중치를 자동으로 낮춥니다. 그 바탕이 되는 크라우드소싱 라벨을 위한 잠재 변수 모델의 개념을 참고하십시오.

실용적인 워크플로

중첩된 어노테이션을 수집합니다(항목당 여러 사람).
다수결이나 MACE로 집계하여 초안 라벨을 얻고, 일치도가 낮은 항목에 표시합니다.
표시된 항목만 전문가 판정으로 보냅니다.
거기서 배운 점을 가이드라인에 반영합니다.

Potato는 검토자가 모든 어노테이터의 라벨을 나란히 보고 해소된 답을 기록하는 판정 워크플로를 지원합니다.

불일치가 곧 데이터일 때

유머, 공격성, 감정 같은 주관적인 작업에서는 반복되는 불일치가 오류가 아니라 사람들 사이의 실제 차이를 반영할 수 있습니다. 그런 경우에는 하나의 답으로 뭉뚱그리지 말고 라벨의 전체 분포(때로 소프트 라벨 또는 관점주의(perspectivist) 어노테이션이라고 부름)를 유지하는 방안을 고려하십시오. Potato는 합의를 강요하지 않고 분포를 기록하는 것을 지원합니다.

판정과 불일치 해소

해소하는 세 가지 방법

실용적인 워크플로

불일치가 곧 데이터일 때

더 읽을거리