アノテーターは実際に何人必要か?
アノテーションプロジェクトのアノテーター数と重複をどう決めるか。客観的タスクと主観的タスクの目安、カバレッジと重複のトレードオフ、Potato での設定方法を解説します。
「アノテーターは何人必要か?」は、どんなプロジェクトでも最初に出てくる質問の一つです。正直な答えは、次の 3 つによって決まる、というものです。タスクがどれだけ明確か、いくら予算をかけられるか、そして不一致をどう扱うつもりか。魔法の数字はありませんが、良い初期値はあります。
カバレッジと重複
どんなアノテーション予算も、競合する 2 つの目標の間で分け合うことになります。カバレッジ(coverage)とは、より多くの異なる項目をそれぞれ 1 回ずつラベル付けすることです。重複(overlap)とは、同じ項目を複数回ラベル付けして、一致率を測定し集約できるようにすることです。両方を同時に最大化することはできません。
うまくいくパターンの一つは、小さなサブセットを完全に重複させて一致率を測定し、タスクが明確に定義されていることを確認したうえで、信頼できると判断したら残りを 1 回ずつ単独でアノテーションする、というものです。すべてを 3 回ラベル付けする費用をかけずに、品質のシグナルが得られます。
目安
カテゴリが明確で一致率が高いタスクでは、ほとんどの項目は 1 人のアノテーターで処理し、品質を監視するために 5〜10 パーセントのサンプルで 2〜3 人を重複させます。
中程度に主観的なタスクでは、項目ごとに 3 人のアノテーターを使い、多数決または能力で重み付けしたモデルで解決します。
不快感、感情、好みの判定のような、本質的に主観的な作業では、項目ごとに 5 人以上のアノテーターを使い、1 つの答えにまとめるのではなくラベルの分布全体を保持することを検討してください。不一致は多くの場合、ノイズではなく本物のシグナルです。
アノテーターを増やすと項目の集約ラベルの分散は減りますが、収穫は逓減します。1 人から 3 人にするほうが、7 人から 9 人にするよりもはるかに効果があります。
Potato での重複の設定
Potato の自動割り当ては、各項目を何人のアノテーターが見るか、項目を人々にどう分配するかを制御します。
automatic_assignment:
on: true
instance_per_annotator: 50 # items each person labels
labels_per_instance: 3 # annotators per item (overlap)人数は品質管理の代わりにはならない
一部のアノテーターが信頼できなければ、人を増やしても役に立ちません。重複をゴールドスタンダード項目や注意確認(attention check)と組み合わせ、集約する前に低品質な作業を重み付けまたは除外できるようにしてください。詳しい根拠については、アノテーターは何人必要か?ガイドとアノテーター間一致率を参照してください。実装の詳細については、ソースドキュメントと品質管理ドキュメントを参照してください。