多くのアノテーションプロジェクトは、アノテーターを交換可能な存在として扱います。ラベルは誰が付けたラベルであろうとラベルだ、という考え方です。多くのタスクではそれで問題ありません。しかし、そうでないタスクも多くあります。そして、自分のアノテーターが誰なのかを把握しようと決めた瞬間、あなたはささやかな研究倫理の問題を引き受けることになります。デモグラフィックデータは、人が他人に手渡す情報の中でも最も機微なものの一つであり、「役に立つかもしれないから」という理由で収集するのは十分な理由とは言えません。

アノテーターの背景は主観的タスクにおけるラベルを左右するため、デモグラフィック属性はしばしば収集する価値があります。ただし、それはインフォームドコンセント、各項目を尋ねる明確な理由、簡単に回答を辞退できる仕組み、そして収集したものを匿名化して報告する計画があってこそです。自分の問いに答えるのに必要な最小限だけを収集し、場当たり的な質問よりも標準化された調査項目を優先し、デモグラフィック属性を単に保存するものではなく文書化するものとして扱いましょう。本稿は、それをうまくやるための解説です。末尾のPotato設定は、同意してからデモグラフィック属性を収集するフローを実践的に示しています。

誰がラベルを付けたかがラベルに現れる理由

アノテーターのアイデンティティが重要であるという最も明確な証拠は、まさにこの問いのために構築されたデータセットから得られます。POPQUORN（Pei and Jurgens, 2023）は、性別、年齢、人種で米国人口に一致するようサンプリングした1,484人のアノテーターから45,000件のアノテーションを収集し、背景がラベルの付け方を予測するかどうかを調べました。答えは「予測する」でした。年齢、人種、学歴は、攻撃性と丁寧さの判断において統計的に有意な要因でした。たとえば、黒人のアノテーターは、同じコメントを他のグループよりも攻撃的だと評価しました。これは平均化して消し去るべきノイズではありません。同じテキストを人がどう読むかにおける、実在の差異です。

同じコメントを3つのアノテーターグループに見せると、5段階の攻撃性評価で3つの異なる評価が付く。それらを平均して3.3という単一のゴールドラベルにすると、グループごとのパターンが隠れてしまう。分かれたグループ評価を単一のゴールドラベルに平均化すると、デモグラフィック属性が明らかにするはずのパターンが隠れる

これは、グラウンドトゥルースに関するより広い論点につながります。Plank（2022）は、人間のラベルのばらつきは誤りではなく本物であることが多いと論じています。そして、そのばらつきが本物であるなら、どのラベルを誰が付けたかを知ることは、データを理解することの一部です。主観的タスクでは、集約された単一のゴールドラベルが、デモグラフィック情報によって見えるはずの不一致をひそかに消し去ってしまいます。（この点は不一致はノイズではなくシグナルであるでさらに掘り下げています。）

つまり、デモグラフィック属性を収集する理由は明快です。タスクが少しでも主観的であるなら、アノテータープールの構成はあなたのデータセットの一つの性質であり、一度も尋ねなければそれを報告することも監査することもできません。

何を収集し、何に手を出さないか

すべてを尋ねて後で整理しようとする誘惑があります。それに抗ってください。収集するデモグラフィック項目は、いずれも正当化し、保護し、いずれ報告しなければならない項目です。そのうちいくつかは法的に機微です。人種、民族、宗教、政治的意見、健康データは、追加の義務を伴うGDPRの特別カテゴリに該当します。デフォルトは、実際の問いに答える最小限のセットであるべきです。

各項目について役立つ判断基準があります。この次元に沿った違いが、誰かがあなたのデータにラベルを付ける方法をもっともらしく変えうるか、そしてあなたは実際にそれを分析するか、という基準です。攻撃性をアノテーションするなら、POPQUORNの結果が年齢、人種、学歴を尋ねることを正当化します。文が文法的に正しいかどうかをアノテーションするなら、それらはフォームに載せるべきものではありません。決して見ることのない属性を収集するのは、綿密さではありません。何の見返りもなく引き受けたリスクです。

これを誠実に保つ2つの実践があります。

すべての質問を分析に結びつける。 項目をフォームに載せる前に、それを使って実行するつもりの比較を書き出しましょう。比較がないなら、項目もなしです。
すべてをスキップ可能にする。 機微な質問には、必須のラジオボタンではなく、本物の「回答しない」という選択肢が必要です。開示を強制されたと感じた人は、離脱するか、いい加減な回答を返します。どちらも空欄よりも悪い結果です。

同意を正しく得る

デモグラフィック属性の収集は、アノテーションがデータ作業であることをやめて、人間を対象とする研究になる地点です。基準となるのはインフォームドコンセントです。デモグラフィックの質問に答える前に、回答者は、あなたが何を収集し、なぜ収集し、誰がそれを見るのか、そしていつでもペナルティなしに中止できることを知っているべきです。これは利用規約の壁に埋め込む形式的な手続きではありません。デモグラフィックの質問が読み込まれる前に、アノテーターが読んで同意するページです。

同意を名目上のものではなく実質的なものにするいくつかの点を挙げます。

自発的な参加を、インターフェースで担保する。 辞退する権利は、辞退が簡単である場合にのみ意味を持ちます。機微な項目すべてに「回答しない」を用意し、すでに稼いだ報酬を失うことなく調査から離脱できる方法を用意しましょう。
推測ではなく自己申告。 デモグラフィック属性はアノテーター自身から得るべきものであり、名前、所在地、書き方から推測してはいけません。推測された属性は、しばしば誤っているうえに、尋ねるよりも深刻なプライバシー侵害です。
匿名化した保存。 デモグラフィックの回答を、個人を特定できるものから切り離しましょう。「Xと自認する評価者はこれをより高く評価した」と言える一方で、それがどの個人だったかを指し示せない状態を目指します。

大学を通じて作業しているなら、これは通常IRB（倫理審査委員会）との議論になり、IRBはまさにこれらの点を重視します。そうでない場合でも、これらの点は変わらず有効です。

アノテーションの受け入れフロー。インフォームドコンセントのページが事前調査のデモグラフィックサーベイをゲートし、機微な質問はすべて「回答しない」を提供し、回答はメインのアノテーションタスクに到達する前に匿名化される。同意がデモグラフィックサーベイをゲートする。機微な項目はすべてスキップ可能で、回答はアノテーション開始前に匿名化される

自分で考えた質問より標準化された調査項目

デモグラフィック属性を収集するとき、それをどう言い回すかは思う以上に重要です。場当たり的な質問は、他の誰とも揃わないカテゴリを生み、研究間で比較できず、しばしば選択肢の枠組みを誤ります。それが最も顕著に表れるのが性別と人種です。解決策は、社会科学者がすでに何十年もかけて磨いてきた調査票から借りることです。American National Election Studies（ANES）やGeneral Social Survey（GSS）のデモグラフィック調査項目は、検証済みで、正当化でき、既存の膨大な研究と比較可能な質問文と回答選択肢を提供してくれます。

標準的な調査項目を使うことは、倫理面の作業の一部も肩代わりしてくれます。これらの調査票にはすでに「回答しない」の選択肢が含まれており、機微なカテゴリの扱い方についても審査を経ているため、審査委員会が問題視するような選択肢のセットを一から作り直さずに済みます。

収集したら、報告する

デモグラフィック属性を収集して、その後二度と触れないのでは目的が台無しです。このデータを集める理由は、あなた自身、そして後にそのデータセットを使うすべての人が、誰がラベルを付けたかを見られるようにするためです。その報告には標準的な形式があります。データステートメント（Bender and Friedman, 2018）には、下流の利用者がデータがどう一般化しうるかを判断できるよう、まさにアノテーターのデモグラフィック属性のセクションが含まれています。そしてデータセットのためのデータシート（Gebru et al.）は、あらゆる機械学習データセットに同じことを求めます。収集を計画するときに公開も計画しましょう。個々のレコードではなく集計された分布を、そしてあなたのプールがモデルが対象とする母集団に似ているかどうかを読み手が判断できるだけの詳細を示します。この点についてはアノテーションデータセットを文書化するで扱っています。

Potatoで実装する

Potatoは、部分的にはこのために作られました。POPQUORNは「Potato-Prolific」データセットであり、Prolific上でPotatoの調査を実行して収集されました。そのため、同意とデモグラフィック属性のフローは、後付けするものではなく第一級の機能です。

受け入れはマルチフェーズのワークフローです。調査をゲートするconsentフェーズ、次にデモグラフィック属性を収集するprestudyフェーズ、そしてアノテーションそのものという流れです。

yaml

phases:
  consent:
    enabled: true
    data_file: "data/consent.json"
 
  prestudy:
    enabled: true
    data_file: "data/demographics.json"
 
  # annotation phase is always enabled

同意ページはright_labelを持つ質問で、これは先に進むために必要な回答です。先に同意しなければ、誰もデモグラフィック属性やタスクにたどり着けません。

json

[
  {
    "name": "consent_agreement",
    "type": "radio",
    "description": "I have read the consent form, understand my responses are anonymized, and agree to participate. I may stop at any time.",
    "labels": ["I agree", "I do not agree"],
    "right_label": "I agree",
    "required": true
  }
]

デモグラフィック属性そのものについては、機微な質問すべてに「回答しない」の選択肢を与え、扱いの難しいカテゴリには組み込みのテンプレートを活用しましょう。

json

[
  {
    "name": "age_range",
    "type": "radio",
    "description": "What is your age range?",
    "labels": ["18-24", "25-34", "35-44", "45-54", "55+", "Prefer not to answer"]
  },
  {
    "name": "ethnicity",
    "type": "select",
    "description": "Which best describes you? (optional)",
    "template": "ethnicity",
    "free_response": true,
    "free_response_label": "Prefer to self-describe"
  }
]

質問を一切手書きしたくないなら、Potatoには8つの標準化されたデモグラフィック調査項目を含む検証済みの調査票が同梱されています。prestudyフェーズをANESやGSSのデモグラフィックに向けるだけで、検証済みの質問文が手に入ります。

yaml

phases:
  prestudy:
    type: prestudy
    instrument: "anes-demographics"   # or gss-demographics, acs-demographics, ...

同意付きデモグラフィックのショーケースは、このフロー全体をすぐに実行できる形にしたものです。デモグラフィック属性以外も測定したい場合は、検証済みの調査票がより広範なライブラリを扱っています。

調査が実行されると、デモグラフィックの回答はアノテーターごとにラベルと並べて保存されます。これこそが、収集を正当化した分析、すなわちグループごとに一致度を分解し、POPQUORNが見出したようにデモグラフィック属性がラベルを予測するかを確認する、という分析を可能にするものです。PotatoはアノテーションについてCohenのkappaとFleissのkappaを報告するため、「グループ帰属がラベルを動かすか」は勘ではなく測定になります。データを公開するときには、prestudyフェーズからの集計された分布が、すでに収集済みの、データステートメントにおけるアノテーターのデモグラフィック属性のセクションになります。

次に読むもの

不一致はノイズではなくシグナルである。ラベルにおけるデモグラフィックのばらつきが、なぜしばしば残しておきたいものであるかについて。
アノテーションデータセットを文書化する。収集したデモグラフィック属性をデータステートメントやデータシートに変えることについて。
アノテーター間一致度の解説。グループごとにラベルを分析するために使う統計について。
ProlificとMTurkでクラウドソーシング調査を実施する。そもそもデモグラフィックのバランスがとれたプールを募集することについて。