주석 연구의 통계적 검정력과 표본 크기

결과가 의미를 가지려면 항목이 몇 개 필요한지, 그것이 항목당 주석자 수와 왜 다른 질문인지, 그리고 검정력이 부족하고 주장이 과장된 주석·평가 연구를 피하는 방법.

"주석자는 몇 명인가?"와 "항목은 몇 개인가?"는 끊임없이 혼동되는 서로 다른 두 질문입니다. 주석자 중첩은 각 항목의 레이블이 얼마나 신뢰할 만한지를 좌우하고, 항목의 수는 관찰된 차이가 실제인지 잡음인지를 좌우합니다. 항목당 주석자가 다섯 명이어도 결론을 뒷받침하기에는 너무 작은 연구일 수 있습니다. 이 가이드는 두 번째 축인 통계적 검정력, 그리고 주석 또는 평가 연구가 데이터가 뒷받침하는 범위를 넘어 주장하지 않도록 막는 방법을 다룹니다.

예산은 하나가 아니라 둘

모든 주석 프로젝트는 서로 독립적인 두 축을 따라 노력을 투입하며, 이 둘을 따로 이름 붙여 두면 도움이 됩니다.

중첩(항목당 주석자 수): 레이블의 신뢰성, 즉 한 항목의 레이블이 옳다는 확신을 사는 것입니다. 이는 주석자는 몇 명이 필요한가?에서 다루는 주제입니다.
표본 크기(항목 수): 통계적 검정력, 즉 조건·모델·집단 사이의 실제 차이를 탐지하는 능력을 사는 것입니다.

둘은 고정된 예산을 두고 경쟁하지만 서로 다른 문제를 해결합니다. 주석자 열 명이 항목 50개에 레이블을 달면 매우 신뢰할 만한 레이블을 얻지만, 표본이 너무 작아 무엇도 비교할 수 없습니다. 주석자 한 명이 항목 5,000개에 레이블을 달면 잡음이 섞인 레이블을 얻지만, 실제 효과를 탐지하기에 충분한 양이 됩니다. 당신이 지금 저지르려는 것이 어느 쪽 실수인지는 실제로 던지고 있는 질문이 무엇인지에 달려 있습니다.

통계적 검정력이란

통계적 검정력은 실제로 존재하는 효과를 당신의 연구가 탐지할 확률입니다. 검정력이 낮다는 것은, 모델 A가 실제로 모델 B보다 낫더라도 실험이 그것을 보여주지 못하는 경우가 잦다는 뜻이며, 덜 분명하게는, 그럼에도 얻어지는 "유의한" 결과가 효과 크기가 부풀려진 우연일 가능성이 더 크다는 뜻입니다. 관례는 80%의 검정력을 목표로 하는 것인데, 이를 위해서는 탐지할 가치가 있는 가장 작은 차이를 미리 정하고 그것을 잡아낼 수 있도록 연구 규모를 정해야 합니다.

불편한 발견은 이 단계가 얼마나 자주 건너뛰어지는가입니다. Card et al. (2020)은 흔한 NLP 설정 전반에 걸쳐 검정력 분석을 수행했고, 발표된 비교 중 상당수가 심각하게 검정력이 부족함을 발견했습니다. 전형적인 논문이 주장하는 작은 차이를, 특히 인간 평가에서 안정적으로 탐지하려면 흔히 수백에서 수천 개의 항목이 필요하며, 이는 연구가 실제로 사용하는 것보다 훨씬 많습니다. 그들의 실용적 교훈은 유의성을 사후에 역산하는 것이 아니라, 데이터를 수집하기 전에 검정력 계산을 수행하라는 것입니다.

유의성 검정을 제대로 하기

항목이 충분한 것은 필요조건이지 충분조건은 아닙니다. 검정도 올바르게 해야 합니다. Dror et al. (2018)은 이 분야의 표준 참고문헌이며, 그 조언은 구체적입니다.

검정을 데이터에 맞추라. NLP 지표는 대개 정규분포를 따르지 않으므로, t-검정이 적용된다고 가정하기보다 비모수적 방법, 즉 bootstrap 검정과 순열 검정에 의존하십시오.
다중 비교를 보정하라. 많은 모델·지표·하위집단을 검정하면 위양성이 부풀려집니다. 검정을 여러 번 수행할 때는 보정하십시오(Bonferroni, 또는 더 나은 Benjamini-Hochberg).
p-값만이 아니라 효과 크기와 신뢰구간을 보고하라. 항목이 충분하면 차이가 통계적으로 유의하면서도 실질적으로는 무의미할 수 있습니다. 효과 크기와 구간은 독자에게 그것을 신경 써야 하는지를 알려줍니다.

실행 가능한 절차

의미가 있을 가장 작은 차이를 명시한다(예: 승률에서 2포인트 차이).
그 효과에 대해 80% 검정력으로 검정력 분석을 수행해 목표 항목 수를 구한다.
레이블이 얼마나 주관적인지에 따라 중첩은 별도로 정한다(주석자 수 가이드 참조).
수집 후에는 bootstrap 검정이나 순열 검정을 사용하고, 비교 횟수에 대해 보정하며, 효과 크기를 구간과 함께 보고한다.

순서가 중요합니다. 데이터를 본 뒤에 연구 규모를 정하는 것이야말로 검정력이 부족한 결과가 발견인 양 포장되는 방식입니다.

Potato에서 하기

검정력은 설계상의 결정이지 설정 키가 아니지만, 분석을 돌릴 깨끗한 데이터를 건네주는 것이 Potato의 역할입니다. 작업 할당에서 신뢰성을 위해 중첩을, 표본 크기를 위해 인스턴스 수를 설정하십시오.

yaml

automatic_assignment:
  on: true
  instance_per_annotator: 400    # sample size: items each annotator sees
  labels_per_instance: 3         # overlap: reliability per item

두 손잡이가 독립적인 것은 의도된 것입니다. 내보내기는 각 주석자의 개별 레이블을 그 ID 및 타임스탬프와 함께 보존하며, 이것이 바로 유의성을 오프라인에서 계산할 때 항목별·주석자별로 bootstrap 재표집을 할 수 있게 해주는 요소입니다. 집계값만이 아니라 주석자별 레이블을 보존하는 것이 검정력을 고려한 제대로 된 분석을 가능하게 합니다. 너무 이르게 단일 골드 레이블로 뭉개 버리면 bootstrap이 필요로 하는 분산을 잃게 됩니다.

더 읽어보기

주석자는 몇 명이 필요한가?, 예산에서 신뢰성 쪽 측면.
주석자 간 일치도 설명, 중첩을 확보한 뒤 신뢰성을 측정하기 위해.
생성 텍스트의 인간 평가, 검정력이 부족한 비교가 특히 흔한 영역.
ML을 위한 주석 내보내기, 검정을 위해 주석자별 레이블을 뽑아내기 위해.