불일치는 잡음이 아니라 신호다: 어노테이터 불일치를 해소하지 말고 지켜야 할 때
어노테이션 파이프라인은 불일치를 지우도록 만들어져 있지만, 주관적 과제에서는 그 불일치가 곧 데이터입니다. 진짜 레이블 변이와 오류를 구별하고, Potato에서 이를 지키는 방법을 안내합니다.
표준적인 어노테이션 파이프라인은 일치를 만들어 내는 기계입니다. 지침을 작성하고, 어노테이터를 훈련하고, 어노테이터 간 일치도를 측정하고, 사람들이 갈리는 사례를 조정하고, 항목마다 하나의 골드 레이블을 내보냅니다. 모든 단계가 불일치를 짜내도록 설계되어 있는데, 이는 불일치가 곧 오류이며 오류는 최소화해야 한다는 전제에 기대고 있습니다. 많은 과제에서는 이 전제로 충분합니다. 하지만 많은 다른 과제에서는 이 전제가 데이터에서 가장 흥미로운 것을 조용히 버려 버립니다.
어노테이터가 갈릴 때, 그 불일치는 어떤 때는 해소해야 할 오류이고 어떤 때는 지켜야 할 진짜 변이입니다. 진짜 정답이 있는 객관적 과제에서는 골드 레이블로 수렴시키십시오. 주관적이거나 관점적인 과제에서는 하나의 골드 레이블이 인간 판단의 실제 분포를 지워 버리므로, 모든 어노테이터의 레이블을 지키고, 승자 하나가 아니라 분포를 저장하며, 완벽하지 않다고 해서 망가졌다고 전제하지 않은 채 일치도를 측정하는 편이 낫습니다. 이 글은 이 두 경우를 가려내고, 중요할 때 그 불일치를 붙드는 방법에 관한 것입니다.
단일 골드 레이블 전제
대부분의 기계 학습은 여전히 항목마다 하나의 올바른 해석이 존재한다고 전제하며, 그래서 어노테이션은 기본적으로 집계로 흘러갑니다. 레이블 세 개를 받아 다수결을 취하고, 그것을 진실이라 부르는 것입니다. Plank (2022)는 이를 인간 레이블 변이의 "문제"라고, 인용 부호를 붙여 이름 지었습니다. 그 틀 자체가 문제이기 때문입니다. 사람들이 레이블링하는 방식의 진짜 변이가 언제나 숨겨진 참값 주변의 잡음인 것은 아닙니다. 어떤 때는 단일한 참값이 아예 없고, 답들의 퍼짐이 그 항목에 대한 정직한 서술입니다.
서베이 문헌은 폭넓은 과제 전반에서 이를 뒷받침합니다. Uma와 동료들 (2021)은 NLP와 컴퓨터 비전 전반에서 불일치로부터 학습하는 연구를 검토하여, 품사 태깅부터 자연어 추론에 이르기까지 인간 불일치가 어디에나 있음을 발견했으며, 불일치를 평균 내 없애는 대신 그로부터 학습하는 방법들이 점점 늘어나고 있음도 확인했습니다. 관점주의적 전환 (Cabitza, Campagner, and Basile, 2021)은 이 논점을 한 걸음 더 밀어붙입니다. 다수결로 집계하는 것은 적극적으로 오도할 수 있으며, 더 나은 관행은 레이블링을 한 사람들의 관점을 지킨다는 것입니다.
불일치는 어디에서 오는가
모든 불일치가 같은 것을 뜻하지는 않으며, 유용한 접근은 주어진 불일치가 어디에서 오는지 묻는 것입니다. 세 가지 원천이 대부분을 설명합니다.
- 지침. 두 어노테이터가 같은 규칙을 다르게 읽거나, 규칙이 눈앞의 사례를 다루지 못합니다. 이 불일치는 결함이며, 해법은 퍼짐을 지키는 것이 아니라 지침을 명확히 하는 것입니다. 파일럿 라운드는 바로 이것을 잡으려고 존재합니다.
- 어노테이터. 누군가 서둘렀거나, 잘못 읽었거나, 대충 클릭해 넘기는 저품질 작업자입니다. 이것은 오류이며, 잡아내어 제거해야 합니다. 이는 진짜 변이와 같지 않으며, 둘을 뒤섞는 것이 바로 "불일치를 지켜라"가 "노이즈를 지켜라"로 변질되는 경로입니다.
- 항목. 텍스트가 진짜로 모호하거나, 판단이 진짜로 읽는 사람에 달려 있습니다. 이 농담은 공격적인가? 이 리뷰는 긍정적인가 아니면 반반인가? 여기서 서로 다른 답은 실수가 아닙니다. 이것이 지킬 가치가 있는 불일치입니다.
기술은 세 번째 원천을 앞의 두 가지에서 분리해 내는 것입니다. 지침 문제는 고쳐지고, 어노테이터 오류는 걸러지며, 남는 것, 곧 항목 수준의 진짜 변이가 신호입니다.
각 불일치를 그 원천까지 거슬러 올라가라: 지침을 고치고, 오류를 걸러 내고, 진짜 변이를 지켜라
객관적 과제인가 주관적 과제인가
가장 깔끔한 판단 기준은 아는 것이 많고 신중한 사람이 답을 확신할 수 있는가입니다. 그렇다면 그 과제는 객관적이고, 골드 레이블이 의미가 있으며, 불일치는 해소할 대상입니다. 날짜가 4월 3일인지 3월 4일인지에는 답이 있습니다. 문장이 개체명을 담고 있는지에도 대체로 답이 있습니다.
아는 것이 많고 신중한 사람도 정당한 이유로 여전히 다른 답에 이를 수 있다면, 그 과제는 주관적이며, 골드 레이블을 강요하는 것은 데이터에 없는 확실성을 지어내는 일입니다. 공격성, 유해성, 유머, 정중함, 입장, 이미지 미학. 이것들은 누가 판단하느냐에 달려 있고, 판단하는 사람들 사이의 변이가 흔히 여러분이 실제로 관심 두는 속성입니다. 그리고 그곳이 바로 어노테이터 인구통계 정보가 레이블에 드러나는 지점이며, 이것이 인구통계 정보를 수집하고 보고해야 하는 이유 전부입니다.
실제 프로젝트 대부분은 순수하게 한쪽만인 경우가 드뭅니다. 실용적인 접근은 먼저 일치도를 측정하고, 그다음 그것을 읽는 것입니다. 높은 일치도는 과제가 객관적으로 작동하고 있어 집계해도 된다는 뜻이고, 주관적 과제에서 끈질기게 중간에 머무는 일치도는 고쳐야 할 실패가 아니라 보존해야 할 분포입니다.
불일치를 지킨다는 것은 어떤 모습인가
불일치를 보존하는 일은 대부분 무엇을 저장할지에 관한 결정입니다. 항목마다 레이블 하나 대신, 개별 보존된 레이블을 지킵니다. 각 어노테이터의 판단을 그 어노테이터에게 묶어 둔 채로 말입니다. 거기에서 소프트 레이블, 곧 단일 승자가 아니라 범주에 걸친 분포를 만들어, 그 분포를 대상으로 훈련하거나 평가할 수 있습니다.
하나의 골드 레이블로 집계해 퍼짐을 잃거나, 개별 보존된 분포를 지켜라
이는 평가도 바꿉니다. 분포를 예측하는 모델은 단일 레이블이 아니라 인간 분포를 대상으로 채점될 수 있어, 사람들이 불확실한 항목에서 불확실했던 것에 보상을 받습니다. 주관적 과제에서 이는 어노테이터 절반이 반대한 다수결에 대한 정확도보다 더 정직한 목표입니다.
이 무엇도 어노테이터 간 일치도를 버린다는 뜻이 아닙니다. 여러분은 여전히 일치도를 측정하되, 1.0 미만의 어떤 수치든 없애야 할 결함으로 취급하기를 그만둘 뿐입니다. 일치도는 그 과제가 얼마나 객관적으로 작동하고 있는지 알려 줍니다. 집계할지 여부는 그 수치를 손에 쥐고 내리는 별개의 결정입니다.
Potato에서 처리하기
Potato는 합의를 강요하지 않습니다. 여러 어노테이터가 같은 항목에 레이블을 달면, 그 레이블은 어노테이터별로 저장되므로, 개별 보존된 데이터, 곧 분포 기반 접근의 원자재가 기본값으로 손에 들어옵니다. 수집 시점에 퍼짐을 잃는 대신, 이후 단계에서 집계할지 여부를 여러분이 선택합니다.
불일치가 사실은 정도에 관한 것인 과제에서는, soft_label 유형이 단일 어노테이터가 하나를 고르는 대신 범주에 점수를 나눠 분포를 직접 표현하게 해 줍니다.
annotation_schemes:
- annotation_type: soft_label
name: emotion_mix
description: Distribute 100 points to reflect how much each emotion applies.
labels: ["Joy", "Sadness", "Anger", "Fear", "Surprise"]
total: 100
show_distribution_chart: true진짜 모호함과 어노테이터 오류를 분리하는 것, 곧 여러분이 가장 가려내야 하는 두 원천에 대해서는 MACE가 도움이 됩니다. MACE는 어노테이터별 역량 점수와 항목별 엔트로피를 함께 추정하므로, 저역량 어노테이터(오류 원천)와 고엔트로피 항목(진짜 변이 원천)이 뒤섞이지 않은 하나의 불일치 더미가 아니라 서로 다른 것으로 드러납니다.
mace:
enabled: true
min_annotations_per_item: 3역량 0.4 근처에 있는 어노테이터는 대충 클릭해 넘기고 있을 가능성이 높으므로 걸러 낼 수 있습니다. 다른 면에서 신뢰할 만한 어노테이터들 사이에서 엔트로피가 높은 항목은 진짜로 다투어지는 것이며, 그것이 여러분이 지키는 불일치입니다. 과제가 정말로 단일한 답을 필요로 할 때는, 객관적 사례를 위해 조정이 마련되어 있으며, MACE가 예측한 레이블이 조정자를 위한 또 하나의 신호가 됩니다. 요점은 불일치 해소가 파이프라인이 여러분 대신 내리는 기본값이 아니라, 과제마다 여러분이 내리는 선택이 된다는 것입니다.
다음으로 볼 곳
- 어노테이터 인구통계 정보를 책임감 있게 수집하기, 판단하는 사람들 사이의 변이가 왜 흔히 신호인지에 관하여.
- 어노테이션 데이터셋 문서화하기, 개별 보존된 레이블과 일치도를 함께 보고하는 방법에 관하여.
- 어노테이터 간 일치도 이해하기, 불일치를 실패로 전제하지 않고 일치도를 측정하는 방법에 관하여.
- 조정과 불일치 해소, 단일 레이블이 옳은 선택인 객관적 사례를 위하여.
주관적 데이터셋은 보존된 불일치가 무엇을 가져다주는지 보여 줍니다. 합리적인 사람들이 진짜로 갈리는, GoEmotions의 세밀하고 다투어지는 감정 레이블과 Social Chemistry의 사회 규범 판단이 그렇습니다.