標準的なアノテーションのパイプラインは、一致を生み出すための機械です。ガイドラインを書き、アノテーターを訓練し、アノテーター間一致を測定し、人によって判断が分かれたケースを裁定し、項目ごとに単一のゴールドラベルを出荷します。どのステップも、不一致は誤りであり誤りは最小化すべきだという前提のもとで、不一致を絞り出すように設計されています。多くのタスクではその前提で問題ありません。しかし他の多くのタスクでは、データの中で最も興味深いものをひそかに捨ててしまっています。

アノテーターの意見が分かれたとき、その不一致は解消すべき誤りである場合もあれば、残すべき本物のばらつきである場合もあります。正しい答えが実在する客観的タスクでは、ゴールドラベルへと集約してください。主観的あるいはパースペクティブに依存するタスクでは、単一のゴールドラベルは人間の判断の実在する分布を消し去ってしまうため、すべてのアノテーターのラベルを残し、勝者ではなく分布を保存し、完璧に満たないことが壊れていることを意味すると仮定せずに一致を測定するほうが得策です。本稿は、この2つのケースを見分け、不一致が重要なときにそれを手放さずに保つことについてです。

単一ゴールドラベルという前提

機械学習の多くは、いまだに各項目に唯一の正しい解釈が存在すると仮定しています。だからこそアノテーションは集約をデフォルトとします。3つのラベルを取り、多数決を取り、それを真実と呼ぶ、というわけです。Plank（2022）はこれを人間のラベルのばらつきの「問題」と呼び、そのカッコ書きは、そのフレーミングこそが問題だという意味を込めています。人がラベルを付ける仕方の本物のばらつきは、隠れた真の値のまわりのノイズであるとは限りません。単一の真の値が存在しない場合もあり、そのときは答えの散らばりこそがその項目の正直な記述なのです。

サーベイ文献も、幅広いタスクにわたってこれを裏づけています。Umaら（2021）は、NLPとコンピュータビジョンにおける不一致からの学習をレビューし、品詞タグ付けから自然言語推論まで至るところに人間の不一致があること、そして不一致を平均化して消すのではなく不一致から学ぶ手法が増えていることを見出しました。パースペクティビズムへの転回（Cabitza, Campagner, and Basile, 2021）はこの点をさらに推し進めます。多数決による集約はむしろ積極的に誤解を招きかねず、より良い実践はラベル付けを行った人々のパースペクティブを残す、というものです。

不一致はどこから来るのか

すべての不一致が同じ意味を持つわけではなく、有効な一手は、その不一致がどこから来ているのかを問うことです。3つの発生源でおおむね説明がつきます。

ガイドライン。 2人のアノテーターが同じルールを違うように読む、あるいはルールが目の前のケースを想定していない。この不一致は欠陥であり、対処法はガイドラインを明確にすることであって、散らばりを残すことではありません。パイロット段階は、まさにこれを見つけるために存在します。
アノテーター。 誰かが急ぎ、読み違え、あるいは質の低い作業者が惰性でクリックしている。これは誤りであり、検出して取り除くべきものです。これは本物のばらつきとは別物であり、両者を混同することが、「不一致を残す」を「ノイズを残す」に変えてしまう原因です。
項目。 テキストが本当に曖昧である、あるいは判断が読む人に本当に依存している。このジョークは攻撃的か。このレビューは肯定的か、それとも入り混じっているか。ここでは異なる答えは誤りではありません。これこそ残す価値のある不一致です。

腕の見せどころは、この3つ目の発生源を最初の2つから切り分けることです。ガイドラインの問題は修正し、アノテーターの誤りは除外し、残ったもの、すなわち本物の項目レベルのばらつきこそがシグナルです。

アノテーターの不一致のための判断補助。不一致をその発生源までたどる。ガイドラインの曖昧さは修正し、アノテーターの誤りは除外し、本物の項目レベルまたはパースペクティブに依存するばらつきは、単一のラベルに解消せずシグナルとして残す。各不一致をその発生源までたどる：ガイドラインを修正し、誤りを除外し、本物のばらつきを残す

客観的タスクか主観的タスクか

最も明快な目安は、知識があり注意深い人が答えに確信を持てるかどうかです。持てるなら、そのタスクは客観的で、ゴールドラベルは意味があり、不一致は解消すべきものです。ある日付が4月3日なのか3月4日なのかには答えがあります。ある文が固有表現を含むかどうかにも、たいていの場合は答えがあります。

知識があり注意深い人でも正当な理由から違うところに落ち着きうるなら、そのタスクは主観的であり、ゴールドラベルを強いることはデータが持たない確実性を捏造することになります。攻撃性、有害性、ユーモア、丁寧さ、スタンス、画像の美的評価。これらは誰が判断するかに依存し、判断者間のばらつきこそが、実はあなたが本当に関心を持っている性質であることがしばしばです。そこはまた、アノテーターのデモグラフィック属性がラベルに現れる場所でもあり、それこそが属性を収集し報告する理由そのものです。

現実のプロジェクトのほとんどは、純粋にどちらか一方ではありません。実践的なやり方は、まず一致を測定し、それを読むことです。高い一致はタスクが客観的に振る舞っていることを意味し、集約してよいということです。主観的タスクで頑固に中程度にとどまる一致は、修正すべき失敗ではなく、保存すべき分布です。

不一致を残すとはどういうことか

不一致を保存することは、大部分が何を保存するかという決定です。項目ごとに1つのラベルではなく、個別のまま保持したラベル、すなわちアノテーターに紐づいた各アノテーターの判断を残します。そこからは、単一の勝者ではなくカテゴリ上の分布であるソフトラベルを構築し、その分布に対して学習または評価することができます。

1つの項目に対する複数アノテーターのラベルを扱う2つの方法。散らばりを捨てる単一のハードなゴールドラベルへと集約するか、その項目がどれだけ本物の不一致を引き出したかを保存する分布として個別のまま保持するか。 1つのゴールドラベルへ集約して散らばりを失うか、個別のまま保持した分布を残すか

これは評価も変えます。分布を予測するモデルは、単一のラベルではなく人間の分布に対して採点できるため、人々が不確かな項目でモデルが不確かであることが報われます。主観的タスクでは、これは半数のアノテーターが反対した多数決に対する正解率よりも正直な目標です。

これはアノテーター間一致を捨てることを意味しません。あなたは依然として一致を測定します。ただ、1.0を下回るあらゆる数値を排除すべき欠陥として扱うのをやめるだけです。一致はタスクがどれほど客観的に振る舞っているかを教えてくれます。集約するかどうかは、その数値を手にしたうえで下す別の決定です。

Potatoでの実践

Potatoは合意を強制しません。複数のアノテーターが同じ項目にラベルを付けると、それらのラベルはアノテーターごとに保存されるため、個別のまま保持されたデータ、すなわち分布に基づくあらゆるアプローチの素材が、デフォルトで手に入ります。収集時に散らばりを失うのではなく、下流で集約するかどうかをあなたが選べます。

不一致が本当に程度の問題であるようなタスクには、soft_labelタイプを使えば、単一のアノテーターが1つを選ぶのではなくカテゴリ間にポイントを配分することで、分布を直接表現できます。

yaml

annotation_schemes:
  - annotation_type: soft_label
    name: emotion_mix
    description: Distribute 100 points to reflect how much each emotion applies.
    labels: ["Joy", "Sadness", "Anger", "Fear", "Surprise"]
    total: 100
    show_distribution_chart: true

本物の曖昧さとアノテーターの誤りを切り分けるため、つまり最も見分ける必要のある2つの発生源を切り分けるために、MACEが役立ちます。MACEはアノテーターごとの能力スコアと項目ごとのエントロピーを同時に推定するため、能力の低いアノテーター（誤りの発生源）と高エントロピーな項目（本物のばらつきの発生源）が、区別のつかない不一致の一山ではなく、別々のものとして現れます。

yaml

mace:
  enabled: true
  min_annotations_per_item: 3

能力0.4付近にいるアノテーターは、おそらく惰性でクリックしており、除外できます。それ以外は信頼できるアノテーターの間で高いエントロピーを示す項目は、本当に議論の分かれる項目であり、それこそが残す不一致です。タスクが本当に単一の答えを必要とするときには、客観的なケースのために裁定があり、MACEが予測したラベルは裁定者にとってのもう1つのシグナルになります。要点は、不一致を解消することが、パイプラインが勝手に下すデフォルトではなく、タスクごとにあなたが下す選択になる、ということです。

次に読むもの

アノテーターのデモグラフィック属性を責任を持って収集する。判断者間のばらつきが、なぜしばしばシグナルであるかについて。
アノテーションデータセットを文書化する。個別のまま保持したラベルと一致をあわせて報告することについて。
アノテーター間一致度の解説。不一致を失敗だと仮定せずに一致を測定することについて。
裁定と不一致の解消。単一のラベルが正しい判断となる客観的なケースについて。

主観的なデータセットは、不一致を保存することで何が得られるかを示してくれます。GoEmotionsのきめ細かく議論の分かれる感情ラベルや、Social Chemistryの社会規範に関する判断がその例で、そこでは分別ある人々でも本当に意見が分かれます。