대부분의 어노테이션 프로젝트는 어노테이터를 서로 대체 가능한 존재로 취급합니다. 누가 만들었든 레이블은 레이블이라는 것입니다. 많은 과제에서는 이 전제가 성립합니다. 하지만 많은 다른 과제에서는 성립하지 않으며, 어노테이터가 누구인지 알아내기로 결정하는 순간 여러분은 작은 연구 윤리 문제를 떠안게 됩니다. 인구통계 정보는 사람이 여러분에게 건넬 수 있는 가장 민감한 정보에 속하며, 유용할지도 모른다는 이유만으로 수집하는 것은 충분한 이유가 되지 못합니다.

주관적 과제에서 어노테이터의 배경은 레이블에 영향을 주므로 인구통계 정보는 수집할 가치가 있을 때가 많지만, 사전 동의와 각 항목에 대한 명확한 이유, 손쉽게 거절할 수 있는 방법, 그리고 수집한 내용을 익명화하고 보고할 계획이 있을 때에만 그렇습니다. 여러분의 질문에 답할 수 있는 최소한만 수집하고, 즉석에서 만든 질문보다 표준화된 설문 세트를 우선하며, 인구통계 정보를 단순히 저장할 대상이 아니라 문서로 남길 대상으로 취급하십시오. 이 글은 그 일을 제대로 하는 방법에 관한 것입니다. 끝에 있는 Potato 설정은 동의 후 인구통계 정보를 받는 흐름을 실제로 보여 줍니다.

누가 레이블링하는지가 레이블에 드러나는 이유

어노테이터의 정체성이 중요하다는 가장 분명한 증거는 바로 이 질문을 위해 만들어진 데이터셋에서 나옵니다. POPQUORN (Pei and Jurgens, 2023)은 성별, 연령, 인종에서 미국 인구 구성과 일치하도록 표집한 1,484명의 어노테이터로부터 45,000건의 어노테이션을 수집한 뒤, 배경이 사람들이 레이블링하는 방식을 예측하는지 물었습니다. 결과는 그렇다는 것이었습니다. 연령, 인종, 학력은 공격성과 정중함 판단에서 통계적으로 유의한 요인이었으며, 예를 들어 흑인 어노테이터는 같은 댓글을 다른 집단보다 더 공격적이라고 평가했습니다. 이는 평균으로 씻어 낼 잡음이 아닙니다. 사람들이 같은 텍스트를 읽는 방식의 실제 차이입니다.

같은 댓글을 세 어노테이터 집단에 보여 주면 5점 척도에서 세 가지 다른 공격성 평점이 나온다. 이를 3.3이라는 하나의 골드 레이블로 평균 내면 집단별 패턴이 가려진다. 서로 다른 집단 평점을 하나의 골드 레이블로 평균 내면 인구통계 정보가 드러낼 패턴이 가려진다

이는 정답(ground truth)에 관한 더 넓은 논점과 이어집니다. Plank (2022)는 사람의 레이블 변이가 흔히 오류가 아니라 진짜라고 주장하며, 변이가 진짜라면 어떤 레이블을 누가 만들었는지 아는 것이 데이터를 이해하는 일의 일부가 됩니다. 주관적 과제에서는 하나로 집계된 골드 레이블이 인구통계 정보가 보여 줄 수 있었을 불일치를 조용히 지워 버립니다. (이에 대해서는 불일치는 잡음이 아니라 신호다에서 더 깊이 다룹니다.)

그래서 인구통계 정보를 수집해야 하는 근거는 단순합니다. 여러분의 과제가 조금이라도 주관적이라면 어노테이터 풀의 구성은 데이터셋의 한 속성이며, 애초에 묻지 않았다면 그것을 보고하거나 감사할 수 없습니다.

무엇을 수집하고, 무엇을 그냥 둘 것인가

모든 것을 묻고 나중에 정리하고 싶은 유혹이 생깁니다. 참으십시오. 수집하는 모든 인구통계 항목은 여러분이 정당화하고, 보호하고, 결국 보고해야 하는 항목이며, 그중 일부는 법적으로 민감합니다. 인종, 민족, 종교, 정치적 견해, 건강 데이터는 추가 의무가 따르는 GDPR상의 특수 범주입니다. 기본값은 실제 질문에 답하는 가장 작은 집합이어야 합니다.

각 항목에 대한 유용한 판단 기준은 이것입니다. 이 차원의 차이가 누군가 여러분의 데이터를 레이블링하는 방식을 그럴듯하게 바꿀 수 있는가, 그리고 여러분이 실제로 그것을 분석할 것인가? 공격성을 어노테이션한다면 POPQUORN 결과는 연령, 인종, 학력을 정당화해 줍니다. 문장이 문법에 맞는지를 어노테이션한다면 그중 어느 것도 양식에 들어갈 필요가 없습니다. 결코 들여다보지 않을 속성을 수집하는 것은 철저함이 아니라 아무 이유 없이 떠안은 위험입니다.

두 가지 관행이 이를 정직하게 유지합니다.

모든 질문을 분석과 연결하십시오. 항목이 양식에 들어가기 전에, 그것으로 수행할 비교를 적어 두십시오. 비교가 없으면 항목도 없습니다.
모든 것을 건너뛸 수 있게 하십시오. 민감한 질문에는 필수 라디오 버튼이 아니라 진짜 「응답하지 않음」 선택지가 필요합니다. 밝히도록 강요당했다고 느끼는 사람은 이탈하거나 엉터리 답을 주는데, 둘 다 빈칸보다 나쁩니다.

동의를 제대로 받기

인구통계 정보 수집은 어노테이션이 데이터 작업을 멈추고 인간 대상 연구가 되는 지점입니다. 기본은 사전 동의입니다. 누군가 인구통계 질문에 답하기 전에, 여러분이 무엇을 수집하고, 왜 수집하며, 누가 그것을 보는지, 그리고 불이익 없이 언제든 중단할 수 있음을 알아야 합니다. 이는 이용 약관의 벽 속에 묻어 두는 형식이 아닙니다. 인구통계 질문이 뜨기 전에 어노테이터가 읽고 동의하는 페이지입니다.

동의를 형식이 아니라 실질로 만드는 몇 가지 요소입니다.

인터페이스로 강제되는 자발적 참여. 거절할 권리는 거절이 쉬울 때에만 의미가 있습니다. 모든 민감한 항목에 「응답하지 않음」을 두고, 이미 받은 보수를 잃지 않으면서 연구를 떠날 수 있는 방법을 두십시오.
추론이 아니라 자기 신고. 인구통계 정보는 어노테이터로부터 나와야 하며, 이름, 위치, 글쓰기로부터 추측해서는 안 됩니다. 추론된 속성은 틀리는 경우가 많고, 묻는 것보다 더 심한 프라이버시 침해입니다.
익명화된 저장. 인구통계 응답을 개인을 식별하는 그 무엇과도 분리하십시오. "X라고 밝힌 평가자들이 이것을 더 높게 평가했다"고 말할 수 있으면서도 그것이 어느 개인인지는 짚을 수 없어야 합니다.

대학을 통해 일한다면 이것은 보통 IRB 논의 대상이며, IRB는 바로 이 지점들을 중요하게 여깁니다. 그렇지 않더라도 이 지점들은 여전히 유효합니다.

어노테이션 접수 흐름: 사전 동의 페이지가 사전 연구 인구통계 설문의 관문 역할을 하고, 모든 민감한 질문은 「응답하지 않음」을 제공하며, 응답은 본 어노테이션 과제에 도달하기 전에 익명화된다. 동의가 인구통계 설문의 관문 역할을 하고, 모든 민감한 항목은 건너뛸 수 있으며, 응답은 어노테이션이 시작되기 전에 익명화된다

직접 지어낸 질문보다 표준화된 설문 세트가 낫다

인구통계 정보를 수집할 때, 그것을 어떻게 표현하는지가 보기보다 더 중요합니다. 즉석에서 만든 질문은 다른 누구의 것과도 맞지 않는 범주를 만들어 내고, 연구 간에 비교할 수 없으며, 특히 성별과 인종에서 선택지를 나쁘게 구성하는 경우가 많습니다. 해결책은 사회과학자들이 이미 수십 년간 다듬어 온 도구를 빌려 오는 것입니다. American National Election Studies(ANES)나 일반사회조사(General Social Survey)(GSS)의 인구통계 설문 세트는 검증되고 정당화 가능하며 방대한 기존 연구와 비교할 수 있는 질문 표현과 응답 선택지를 제공합니다.

표준 설문 세트를 사용하면 윤리 작업의 일부도 대신 해결됩니다. 이 도구들은 이미 「응답하지 않음」 선택지를 포함하고 있고 민감한 범주를 다루는 방식에 대해 검토를 거쳤으므로, 심의 위원회가 문제 삼을 선택지 집합을 새로 만들어 낼 필요가 없습니다.

수집한 다음, 보고하라

인구통계 정보를 수집하고서 다시는 언급하지 않는다면 목적이 무색해집니다. 이 데이터를 모으는 이유는 여러분과, 나중에 이 데이터셋을 사용하는 모두가 누가 레이블을 만들었는지 볼 수 있게 하기 위함입니다. 그 보고에는 표준 형식이 있습니다. 데이터 스테이트먼트 (Bender and Friedman, 2018)에는 후속 사용자가 데이터가 얼마나 일반화될 수 있는지 판단할 수 있도록 어노테이터 인구통계 섹션이 정확히 이런 이유로 포함되며, 데이터셋을 위한 데이터시트 (Gebru et al.)는 모든 ML 데이터셋에 같은 것을 요구합니다. 수집을 계획할 때 공개도 함께 계획하십시오. 개별 기록이 아니라 집계된 분포를, 그리고 독자가 여러분의 풀이 모델이 서비스할 인구 집단과 닮았는지 판단할 수 있을 만큼의 세부 정보를 담으십시오. 그 부분은 어노테이션 데이터셋 문서화하기에서 다룹니다.

Potato에서 처리하기

Potato는 부분적으로 이를 위해 만들어졌습니다. POPQUORN은 Prolific에서 Potato 연구를 실행하여 수집한 "Potato-Prolific" 데이터셋이므로, 동의와 인구통계 정보를 받는 흐름은 나중에 덧붙이는 것이 아니라 일급 기능입니다.

접수는 다단계 워크플로입니다. 연구의 관문 역할을 하는 consent 단계, 그다음 인구통계 정보를 수집하는 prestudy 단계, 그다음 어노테이션 자체로 이어집니다.

yaml

phases:
  consent:
    enabled: true
    data_file: "data/consent.json"
 
  prestudy:
    enabled: true
    data_file: "data/demographics.json"
 
  # annotation phase is always enabled

동의 페이지는 진행에 필요한 답인 right_label을 가진 질문입니다. 먼저 동의하지 않으면 아무도 인구통계 정보나 과제에 도달하지 못합니다.

json

[
  {
    "name": "consent_agreement",
    "type": "radio",
    "description": "I have read the consent form, understand my responses are anonymized, and agree to participate. I may stop at any time.",
    "labels": ["I agree", "I do not agree"],
    "right_label": "I agree",
    "required": true
  }
]

인구통계 정보 자체에 대해서는, 모든 민감한 질문에 「응답하지 않음」 선택지를 주고 까다로운 범주에는 내장 템플릿에 의존하십시오.

json

[
  {
    "name": "age_range",
    "type": "radio",
    "description": "What is your age range?",
    "labels": ["18-24", "25-34", "35-44", "45-54", "55+", "Prefer not to answer"]
  },
  {
    "name": "ethnicity",
    "type": "select",
    "description": "Which best describes you? (optional)",
    "template": "ethnicity",
    "free_response": true,
    "free_response_label": "Prefer to self-describe"
  }
]

질문을 아예 직접 작성하고 싶지 않다면, Potato는 표준화된 인구통계 설문 세트 여덟 가지를 포함해 검증된 설문 도구를 제공합니다. prestudy 단계를 ANES나 GSS 인구통계에 연결하면 검증된 표현을 그대로 얻을 수 있습니다.

yaml

phases:
  prestudy:
    type: prestudy
    instrument: "anes-demographics"   # or gss-demographics, acs-demographics, ...

동의를 포함한 인구통계 쇼케이스는 이 전체 흐름의 바로 실행 가능한 버전이며, 인구통계 정보 이상을 측정하고 싶다면 검증된 설문 도구가 더 넓은 라이브러리를 다룹니다.

연구가 실행되면 인구통계 응답은 각 어노테이터의 레이블과 함께 어노테이터별로 저장되며, 이것이 바로 수집을 정당화한 그 분석을 가능하게 합니다. 일치도를 집단별로 분해하고, POPQUORN이 발견한 방식대로 어떤 인구통계 항목이 레이블을 예측하는지 확인하는 것입니다. Potato는 어노테이션에 대해 Cohen과 Fleiss의 카파를 보고하므로, "집단 소속이 레이블을 움직이는가"는 짐작이 아니라 측정이 됩니다. 데이터를 공개할 때, prestudy 단계에서 얻은 집계 분포가 곧 여러분 데이터 스테이트먼트의 어노테이터 인구통계 섹션이며, 이미 수집되어 있습니다.

다음으로 볼 곳

불일치는 잡음이 아니라 신호다, 레이블에서의 인구통계적 변이가 왜 흔히 여러분이 지키고 싶은 바로 그것인지에 관하여.
어노테이션 데이터셋 문서화하기, 수집한 인구통계 정보를 데이터 스테이트먼트나 데이터시트로 만드는 방법에 관하여.
어노테이터 간 일치도 이해하기, 레이블을 집단별로 분석할 때 사용하는 통계에 관하여.
Prolific과 MTurk에서 크라우드소싱 연구 실행하기, 애초에 인구통계적으로 균형 잡힌 풀을 모집하는 방법에 관하여.