アノテーションを行う人がラベルを形づくるという事実を受け入れたら、次の問いは、その人たちについて何を測るかです。年齢や学歴は分かりやすい出発点ですが、主観的タスクでは、興味深い予測因子はもっと遠くにあることが多いものです。パーソナリティ、価値観、その日の気分、判定対象への当事者としての経験などです。手早い質問をいくつか書いて先に進みたくなりますが、たいていそれは失敗のもとです。自作の質問には実績も比較対象もなく、しばしば分析の段になるまで気づかない微妙な言い回しの欠陥を抱えているからです。

アノテーターについて何かを測りたいとき、自作の前にまず検証済みの調査尺度に手を伸ばしましょう。Big Five、PANAS（ポジティブ・ネガティブ感情尺度）、標準的なデモグラフィック項目群といった尺度には、検証済みの言い回し、既知の信頼性、そして膨大な先行研究と比較可能な結果が備わっており、そのいずれもその場で自作した質問には得られません。Potatoはそれらを55種類搭載しており、事前調査（prestudy）または事後調査（poststudy）フェーズで設定1行から使えます。分析するものだけを収集し、メンタルヘルスのスクリーニング尺度は機微なデータとして扱い、インフォームドコンセントを得ましょう。本稿は、このライブラリに何が入っていて、それぞれがどんなときに研究に加わるべきかを巡る旅です。

なぜ自分で質問を書かないのか

検証済み尺度とは、研究者たちが信頼性（一貫した結果が得られるか）と妥当性（主張するものを実際に測っているか）を、通常は大規模なサンプルと数多くの研究をまたいで検証してきた調査票です。それを借りることで、自作の質問には得られない3つのものが手に入ります。曖昧さやバイアスがチェックされた言い回し、公表された基準値を持つ採点方法、そして比較可能性です。あなたの数値が、同じ尺度を使った他のすべての人と揃うからです。

自作のコストは後になって表面化します。選択肢を誤った性別の質問、微妙に誘導的な満足度尺度、アノテーターの半数が別の意味に読むパーソナリティの質問。それぞれが、シグナルと切り分けられないノイズやバイアスをひそかに加えていきます。尺度の作成者がそのコストをすでに支払ってくれているので、あなたは払わずに済むのです。

何を測りうるか、そしてなぜそれがラベルに現れるのか

すべてがどの研究にも当てはまるわけではありません。尺度は、タスクに対してもっともらしい効果を持つものと対応づけましょう。

デモグラフィック：誰がアノテーションしているか。 デモグラフィック項目群（ANES、GSS、ACSなど）は、年齢、人種、学歴などを標準化された言い回しで捉えます。攻撃性、有害性、丁寧さについては、これらがもっとも多くの証拠に裏づけられた予測因子です。
パーソナリティと価値観：どう判定するか。 Big Five（Soto and John, 2017）と、その超短縮版であるいとこのTen-Item Personality Inventory（TIPI、Gosling et al., 2003）は、主観的な評定を形づくりうる安定した気質を捉えます。Moral Foundations Questionnaire（MFQ、Graham et al., 2011）は、ラベルが道徳的判断であるとき自然にフィットします。判断を駆動する道徳的直観を測るからです。
感情：ラベル付け時点の気分。 PANAS（Watson et al., 1988）はポジティブ感情とネガティブ感情を測ります。事後調査フェーズで実施すれば、気分が評定と連動していたかを確認でき、これは感情的な負荷の高いコンテンツで重要になります。
当事者としての経験：判定する立場。 Everyday Discrimination Scale（EDS、Williams et al., 1997）は、日常における差別の経験を測ります。ある集団に向けられた攻撃性やヘイトに関するタスクでは、アノテーターがそれを経験してきたかどうかが、その人の読み方にもっともらしく関わってきます。
ウェルビーイング：アノテーターを守る。 PHQ-9（Kroenke et al., 2001）やGAD-7のようなスクリーニング尺度は、ラベルとはまったく関係がありません。有害または苦痛を伴うコンテンツを扱うプロジェクトでは、軽めのウェルビーイングチェックが負荷への気づきを助けます。ただし、回答はそれが要求する慎重さをもって扱う場合に限ります。

Potatoの調査尺度ライブラリを8つのカテゴリに分類したもの。デモグラフィック項目群、パーソナリティ、メンタルヘルスとウェルビーイング、感情、社会・政治的態度、自己概念・社会、回答スタイル、短縮版で、それぞれに例となる尺度を示し、アノテーション研究にもっとも関連するものを強調表示している。 55の尺度ライブラリをカテゴリ別に分類し、アノテーションに関連するものを強調表示

落とし穴：機微性、負担、そして同意

アノテーターを測ることにはリスクがないわけではなく、これらのカテゴリのうち2つは本当に重みを持ちます。

メンタルヘルスのスクリーニング尺度は、機微な個人データです。PHQ-9のスコアは診断ではなく、診断として扱ったり、誰かを作業から除外するために使ったりしては決していけません。実施するなら、理由を述べ、任意にとどめ、個人を特定しうるものとは分けて保管し、懸念されるスコアが何を意味するかについて収集前に方針を持っておきましょう。迷ったら、これは倫理委員会に相談すべき事柄です。

長さそのものが一種の税です。Big Five Inventory-2は60項目あり、項目群を積み重ねればアノテーションより時間がかかることもあります。質問が1つ増えるごとに完了率と注意が削られるので、長い版が特に必要でない限りは短縮版（10項目のTIPI、2項目のPHQ-2）に頼り、実際には分析しないものはすべて削りましょう。デモグラフィックと同じく、原則は変わりません。それを使って走らせる予定の比較がなければ、フォームには載せないのです。

Potatoでの実践

Potatoには、パーソナリティ、メンタルヘルス、感情、社会・政治的態度、そして8つのデモグラフィック項目群にわたる55の検証済み尺度のライブラリが含まれており、すべてSurvey Instrumentsに文書化されています。これらの調査票を組み立てる必要はなく、名前を指定するだけです。

事前調査または事後調査フェーズで、1つの尺度をIDで参照します。

yaml

phases:
  order: [consent, prestudy, annotation, poststudy]
 
  prestudy:
    type: prestudy
    instrument: "tipi"          # 10-item Big Five
 
  poststudy:
    type: poststudy
    instrument: "panas"         # affect, measured after the task

instruments:で複数を積み重ね、項目群のあとに研究固有の独自質問を追加します。

yaml

phases:
  prestudy:
    type: prestudy
    instruments:
      - "gss-demographics"      # standardized demographics
      - "srh"                   # single self-rated health item
    file: "surveys/study_specific.json"   # appended after the instruments

各尺度は採点メタデータ（採点方法、逆転項目、範囲、カットオフ）を備えていますが、Potatoは採点をあなたの分析に委ね、代わりに計算することはしません。臨床的なものについては、これが正しい判断です。デモグラフィックと同意のショーケースは、この流れ全体をまとめています。同意のゲート、事前調査フェーズでの標準化されたデモグラフィック項目群、そして主観的な評定タスクを組み合わせ、アノテーターの背景がラベルの隣に着地して、分析できるようにするのです。

次に読むもの

アノテーターのデモグラフィック属性を責任を持って収集する。デモグラフィック項目群を正しく行うことについて。
不一致はノイズではなくシグナルである。ラベルにおけるパーソナリティや価値観のばらつきが、しばしばまさに望むものである理由について。
アノテーションデータセットを文書化する。アノテーターについて測ったものを報告することについて。
Survey Instruments。IDと項目数を添えた全55尺度の完全なリスト。