クラウドラベルの集約：多数決を超えて

Dawid-SkeneやMACEといったアノテーターモデルを使い、多数のノイズを含むアノテーションを1つのラベルにまとめる方法、それらをいつ信頼すべきか、そしてPotatoがどのように能力を推定しラベルを推論するかを解説します。

複数の人が同じ項目にラベルを付けるとき、多数決は回答をまとめる明白な方法であり、たいていは間違った方法でもあります。各アノテーターの信頼性を推定するモデルは、より良いラベルを回復し、スパマーを検出し、どれだけ信頼すべきかを教えてくれます。しかしそのどれもが唯一の正解の存在を前提としているため、主観的なタスクではまず、不一致が取り除くべき誤りなのか、保持すべきシグナルなのかを判断しなければなりません。本ガイドでは、主要な集約モデル、それらが共有する前提、そしてPotatoで実際に実行する方法を扱います。

多数決が存在しないふりをする問題

ある項目について3つのラベルを集め、多数派を採る。アノテーターがほぼ同等で、大半が正しいときには機能します。そうでなくなった途端に破綻します。多数決は、慎重な専門家とランダムにクリックするボットをそれぞれ1票として数え、票の分かれ方を捨て去り(2対1の勝利と3対0の圧勝が同じ結果になる)、本当に難しい項目と怠慢なアノテーターとを見分ける手立てを何も与えてくれません。これが真値推論の問題です。すなわち、ラベル行列だけを手がかりに、潜在的な真のラベルと各アノテーターの信頼性を同時に回復することです。

混同行列モデル：Dawid and Skene

この基礎的な手法は生まれてからおよそ50年になります。Dawid and Skene (1979) は各アノテーターを混同行列でモデル化しました。つまり、真に陽性の項目を陽性・陰性などとラベル付けする確率です。そして期待値最大化を用いて、それらの行列と真のラベルを同時に推定しました。2つのカテゴリを混同するアノテーターには、それを示す混同行列が割り当てられ、その区別に関する票はそれに応じて低く重み付けされます。現代の集約モデルのほぼすべてが、この着想の子孫です。

MACE：能力とスパム検出

Hovy et al. (2013) はMACE(Multi-Annotator Competence Estimation)を導入しました。これは明示的なスパムモデルを加えるものです。各アノテーターは答えを知っているか推測しているかのいずれかとして扱われ、MACEは各項目で推測していた確率を推定します。これにより、アノテーターごとに0から1のあいだの単一の能力スコアが得られ、加えて本当に曖昧な項目を示す項目ごとのエントロピーも得られます。高速で、ランダムなクリッカーを捕まえるのが得意であり、Potatoに同梱されているモデルです。

ベイズモデルとサーベイの知見

この分野はこの2つをはるかに超えて発展してきました。Paun et al. (2018) は一連のベイズ的アノテーションモデルを実データセットで比較し、とりわけアノテーターの質が大きくばらつく場合に、それらが一貫して多数決を上回ることを見いだしました。同時に、下流へ伝播できる較正済みの不確実性も提供します。工学的な側面では、Zheng et al. (2017) が17の真値推論手法をベンチマークし、問題は解決済みかを問いました。短い答えは「否」です。あらゆる場面で勝つ単一の手法はありませんが、そのほぼすべてが多数決を上回り、ラベルの質が下がるほどその差は広がります。

これらすべてが共有する前提

上記のモデルはいずれも、真のラベルは1つだけ存在し、不一致は誤りであると仮定しています。客観的なタスクではそれで問題ありません。しかし主観的なタスクではまさに逆です。不快さ、感情、道徳的判断においては、2人のアノテーターが本当にテキストを異なって読むために不一致となることがあり、Plank (2022) は、この人間によるラベルのばらつきはしばしばノイズではなくシグナルであると論じています。集約して消し去れば、データを興味深いものにしていたまさにそのものを捨ててしまうことになります。(これについては不一致はノイズではなくシグナルであるでさらに掘り下げています。)

ここで、誰がアノテーションしたかを知ることが重要になり始めます。NUTMEG (Ivey, Gauch, and Jurgens, 2025) は、まさにこの緊張のために作られたベイズモデルです。アノテーターの背景情報を用いて、正当で体系的な不一致をノイズから切り分け、不注意なラベルを学習データから取り除きつつ、アノテーターが誰であるかを反映する不一致は保持します。それが機能するのは、そもそも背景情報を収集していた場合に限られます。事前調査として人口統計アンケートを実施していれば(アノテーターの人口統計データを責任をもって収集するおよびPotatoのアンケート機能を参照)、NUTMEG方式のモデルが必要とするアノテーターのメタデータが手元にあります。それがなければ、あらゆる不一致をすべて誤りかすべてシグナルのどちらかとして扱うほかありません。

Potatoでの実行

Potatoは、あなたの複数アノテーターデータに対してMACEを実行し、管理ダッシュボードで能力と推論されたラベルを報告します。カテゴリカルなスキーム(radio、likert、select、multiselect)で機能し、推定する対象を得るには、項目ごとに複数のアノテーターという実際の重複が必要です。

yaml

mace:
  enabled: true
  trigger_every_n: 10            # re-estimate after every 10 new annotations
  min_annotations_per_item: 3    # ignore items with fewer than 3 labels
  min_items: 5                   # wait for at least 5 eligible items

実行後、各アノテーターには能力スコアが付与され(1.0に近ければ信頼でき、0.5を下回ればおそらくスパマー)、各項目には予測ラベルとエントロピー値が付与されます。エントロピーが低いということはモデルが自信を持っていることを意味し、最大値に近いということは合意がないことを意味します。これは通常、悪いアノテーターではなく、本当に難しい項目や仕様が不十分な項目を示します。すべてのオプションはMACE機能リファレンスにあります。

実務上の注意を2つ。第一に、実際に収集した重複に対して集約してください。MACEは項目ごとに複数のラベルを必要とするため、重複は研究の後ではなく前に計画してください。第二に、MACEは単一のラベルを返します。タスクが主観的なら、代わりにsoft_labelスキームで分布を保持することを検討し、本当に1つの答えが必要な場合にのみ裁定に頼ってください。

いつ集約し、いつ広がりを保つか

大まかな判断基準は次のとおりです。

客観的なタスクで、実際の解答キーが存在する → 1つのラベルに集約する。MACEか多数決を使って先へ進む。
やや客観的だが、一部のアノテーターが信頼できない → 素の多数決ではなく能力モデル(MACE)で集約し、質の低い評価者が結果を左右しないようにする。
主観的なタスクで、不一致に意味がある → 完全な分布(soft_label)を保持し、アノテーターのメタデータがあれば、不一致を削除するのではなくモデル化する。

さらに読む

MACEによる能力推定。APIエンドポイントと解釈を含む機能リファレンス。
裁定と不一致。まとめると決めたケースを解決するために。
アノテーター間一致の解説。集約する前にアノテーターがどれだけ食い違っているかを測るために。
アノテーターは何人必要か？。集約を可能にする重複について。