어노테이션을 하는 사람이 레이블을 좌우한다는 사실을 받아들이고 나면, 다음 질문은 그들에 관해 무엇을 측정할 것인가입니다. 나이와 학력은 당연한 출발점이지만, 주관적 과제에서 흥미로운 예측 변수는 흔히 더 먼 곳에 있습니다. 성격, 가치관, 그날의 기분, 판단 대상에 대한 직접적 경험 같은 것들 말입니다. 유혹은 간단한 질문 몇 개를 적어 두고 넘어가는 것입니다. 그것은 대개 실수인데, 여러분이 지어낸 질문에는 검증 이력도, 비교 집단도 없고, 분석 단계에 이르러서야 알아차릴 미묘한 문구 결함이 종종 숨어 있기 때문입니다.

어노테이터에 관해 무언가를 측정하고 싶을 때는, 직접 질문을 만들기 전에 검증된 설문 도구를 먼저 찾으십시오. Big Five, PANAS(긍정·부정 정서 척도), 표준 인구통계 문항 세트 같은 도구는 검증된 문구, 알려진 신뢰도, 그리고 방대한 선행 연구와 비교 가능한 결과를 함께 제공하며, 이 중 어느 것도 즉석에서 만든 질문은 주지 못합니다. Potato는 이런 도구 55개를 함께 제공하며, 설정 한 줄로 사전 조사나 사후 조사 단계에서 쓸 수 있습니다. 분석할 것만 수집하고, 정신 건강 선별 도구는 민감 정보로 다루며, 사전 동의를 받으십시오. 이 글은 이 라이브러리에 무엇이 있는지, 그리고 각 부분이 언제 제자리를 얻는지 둘러보는 안내입니다.

왜 직접 질문을 만들면 안 되는가

검증된 도구란 연구자들이 신뢰도(일관된 결과를 내는가?)와 타당도(주장하는 바를 실제로 측정하는가?)를 검증한 설문지로, 보통 큰 표본과 여러 연구를 거쳐 검증됩니다. 이런 도구를 빌려 오면 직접 만든 질문이 줄 수 없는 세 가지를 얻습니다. 모호성과 편향을 점검한 문구, 공표된 규준이 딸린 채점 방법, 그리고 비교 가능성입니다. 같은 도구를 쓴 다른 모든 사람과 수치가 나란히 서기 때문입니다.

직접 만드는 비용은 나중에 드러납니다. 선택지가 잘못된 성별 질문, 미묘하게 유도적인 만족도 척도, 어노테이터 절반이 다르게 읽는 성격 질문, 이 각각이 신호와 구별할 수 없는 잡음이나 편향을 조용히 더합니다. 도구를 만든 저자들이 이미 그 비용을 치렀으니 여러분은 치르지 않아도 됩니다.

무엇을 측정할 수 있고, 그것이 왜 레이블에 나타나는가

모든 것이 모든 연구에 들어가는 것은 아닙니다. 여러분의 과제에 그럴듯한 영향을 미칠 도구를 골라 맞추십시오.

인구통계: 누가 어노테이션하는가. 인구통계 문항 세트(ANES, GSS, ACS 등)는 나이, 인종, 학력 등을 표준화된 문구로 담아냅니다. 공격성, 유해성, 정중함 판단에서는 이것들이 가장 많은 근거를 가진 예측 변수입니다.
성격과 가치관: 누군가가 어떻게 판단하는가. Big Five(Soto and John, 2017)와 그 초단축형인 Ten-Item Personality Inventory(Gosling et al., 2003)는 주관적 평정을 좌우할 수 있는 안정적 성향을 담아냅니다. Moral Foundations Questionnaire(Graham et al., 2011)는 레이블이 도덕적 판단일 때 자연스럽게 들어맞는데, 그 판단을 이끄는 도덕적 직관을 측정하기 때문입니다.
정서: 레이블링 시점의 기분. PANAS(Watson et al., 1988)는 긍정 정서와 부정 정서를 측정합니다. 사후 조사 단계에서 돌리면 기분이 평정을 따라갔는지 확인할 수 있는데, 이는 정서적으로 부담이 큰 콘텐츠에서 중요합니다.
직접 경험: 판단할 자격. Everyday Discrimination Scale(Williams et al., 1997)는 일상에서 겪는 차별 경험을 측정합니다. 특정 집단을 향한 공격성이나 혐오에 관한 과제에서는, 어노테이터가 그것을 직접 겪었는지 여부가 그들이 그것을 어떻게 읽는지에 그럴듯하게 관련됩니다.
웰빙: 어노테이터 보호하기. PHQ-9(Kroenke et al., 2001)나 GAD-7 같은 선별 도구는 레이블과는 전혀 무관합니다. 유해하거나 괴로운 콘텐츠를 다루는 프로젝트에서, 가벼운 웰빙 점검은 부담의 조짐을 알아차리는 데 도움이 됩니다. 다만 응답은 그것이 요구하는 만큼 신중히 다뤄야 합니다.

Potato의 설문 도구 라이브러리를 여덟 범주로 묶은 그림: 인구통계 문항 세트, 성격, 정신 건강과 웰빙, 정서, 사회·정치 태도, 자기개념·사회, 응답 성향, 단축형이며, 각 범주에 예시 도구가 담기고 어노테이션 연구에 가장 관련 있는 것들이 강조되어 있다. 55개 도구 라이브러리를 범주별로 묶고, 어노테이션에 관련 있는 것들을 강조한 그림

함정: 민감성, 부담, 그리고 사전 동의

어노테이터를 측정하는 데는 위험이 따르며, 이 범주 중 둘은 실제로 무게가 큽니다.

정신 건강 선별 도구는 민감한 개인정보입니다. PHQ-9 점수는 진단이 아니며, 결코 진단처럼 다뤄지거나 누군가를 작업에서 배제하는 데 쓰여서는 안 됩니다. 하나를 돌린다면 이유를 밝히고, 선택 사항으로 두고, 식별 정보와 분리해 저장하며, 우려되는 점수가 무엇을 뜻하는지 수집하기 전에 계획을 세워 두십시오. 확신이 서지 않으면, 이것은 윤리심의위원회와 나눌 대화입니다.

분량 자체가 하나의 세금입니다. Big Five Inventory-2는 60문항으로, 문항 세트를 여러 개 쌓으면 어노테이션보다 오래 걸릴 수 있습니다. 추가 질문 하나하나가 완료율과 주의를 갉아먹으니, 긴 버전이 특별히 필요한 경우가 아니면 단축형(10문항 TIPI, 2문항 PHQ-2)에 기대고, 실제로 분석하지 않을 것은 잘라내십시오. 인구통계와 마찬가지로 규칙은 그대로입니다. 그것으로 돌릴 비교 계획이 없다면, 설문지에 넣지 마십시오.

Potato에서 처리하기

Potato는 성격, 정신 건강, 정서, 사회·정치 태도, 그리고 여덟 개의 인구통계 문항 세트를 아우르는 검증된 도구 55개를 포함하며, 모두 설문 도구에 문서화되어 있습니다. 이 설문지를 여러분이 만드는 것이 아니라, 이름만 부릅니다.

사전 조사나 사후 조사 단계에서 도구 하나를 ID로 참조하십시오:

yaml

phases:
  order: [consent, prestudy, annotation, poststudy]
 
  prestudy:
    type: prestudy
    instrument: "tipi"          # 10-item Big Five
 
  poststudy:
    type: poststudy
    instrument: "panas"         # affect, measured after the task

instruments:로 여러 개를 쌓고, 문항 세트 뒤에 여러분만의 연구별 질문을 덧붙이십시오:

yaml

phases:
  prestudy:
    type: prestudy
    instruments:
      - "gss-demographics"      # standardized demographics
      - "srh"                   # single self-rated health item
    file: "surveys/study_specific.json"   # appended after the instruments

각 도구는 채점 메타데이터(방법, 역채점 문항, 범위, 절단점)를 지니고 있지만, Potato는 채점을 대신 계산하지 않고 여러분의 분석에 맡깁니다. 임상적 성격을 띤 무엇에 대해서는 이것이 옳은 판단입니다. 사전 동의가 포함된 인구통계 쇼케이스는 전체 흐름을 하나로 엮습니다. 동의 관문, 사전 조사 단계의 표준화된 인구통계 문항 세트, 그리고 주관적 평정 과제를 놓아, 어노테이터 배경 정보가 분석할 수 있도록 레이블 바로 옆에 놓이게 합니다.

다음으로 볼 곳

어노테이터 인구통계 정보를 책임감 있게 수집하기, 인구통계 문항 세트를 제대로 하는 법.
불일치는 잡음이 아니라 신호다, 레이블에 나타나는 성격과 가치관의 변이가 왜 종종 여러분이 원하는 것인지.
어노테이션 데이터셋 문서화하기, 어노테이터에 관해 측정한 것을 보고하는 법.
설문 도구, ID와 문항 수를 담은 55개 전체 목록.