애너테이터는 몇 명이 필요한가?

주석 프로젝트의 애너테이터 수와 중복을 어떻게 정할지, 일치도·비용·통계적 신뢰도의 균형을 맞추는 방법을 Potato의 중복 설정과 함께 설명합니다.

유일한 정답은 없지만, 결정은 세 가지 지렛대로 귀결됩니다. 각 항목을 몇 명이 레이블링하는가(중복), 작업이 얼마나 명확한가, 그리고 예산입니다. 명확한 작업은 중복이 적어도 되고, 주관적인 작업은 더 많이 필요합니다. 이 가이드는 경험칙과 그것을 구현하는 설정을 제시합니다.

중복 대 커버리지

모든 주석 예산은 두 가지 목표 사이에서 나뉩니다.

커버리지: 더 많은 서로 다른 항목을 (각각 한 번씩) 레이블링합니다.
중복: 같은 항목을 여러 번 레이블링하여 일치도 추정값과 집계 수단을 얻습니다.

두 가지를 동시에 극대화할 수는 없습니다. 흔한 방식은 먼저 일부분을 완전히 중복시켜 일치도를 측정하고, 작업을 신뢰할 수 있다고 판단되면 나머지는 한 번씩만 주석하는 것입니다.

경험칙

객관적인 작업(범주가 명확하고 일치도가 높음): 대부분의 항목은 애너테이터 1명으로 하되, 품질을 모니터링하기 위해 5~~10% 표본에 2~~3배의 중복을 둡니다.
다소 주관적인 작업: 항목당 애너테이터 3명으로 하고, 다수결 또는 MACE로 정리합니다.
매우 주관적인 작업(공격성, 감정, 선호): 항목당 애너테이터 5명 이상으로 하고, 하나로 합치기보다 레이블 분포 전체를 유지하는 것을 고려합니다.

애너테이터를 늘리면 항목의 집계 레이블 분산이 줄어들지만 수확은 체감합니다. 1명에서 3명으로 늘리는 것이 7명에서 9명으로 늘리는 것보다 훨씬 효과적입니다.

Potato에서 중복 설정하기

Potato의 작업 할당은 각 항목을 몇 명의 애너테이터가 보는지, 그리고 항목을 어떻게 분배할지를 제어합니다.

yaml

automatic_assignment:
  on: true
  instance_per_annotator: 50     # how many items each person labels
  labels_per_instance: 3         # how many annotators label each item (overlap)

품질 점검을 잊지 마세요

일부 애너테이터가 신뢰할 수 없다면 인원을 늘려도 소용이 없습니다. 중복을 골드 스탠더드 및 주의력 점검과 결합하여, 집계하기 전에 품질이 낮은 작업에 가중치를 두거나 제외할 수 있도록 하세요.

애너테이터는 몇 명이 필요한가?

중복 대 커버리지

경험칙

Potato에서 중복 설정하기

품질 점검을 잊지 마세요

더 읽어보기