Skip to content

品質管理

注意チェック、ゴールドスタンダード、アノテーター間一致度メトリクス。

品質管理

Potatoは高品質なアノテーションを確保するための包括的な品質管理機能を提供します。注意チェック、ゴールドスタンダード、事前アノテーションサポート、リアルタイム一致度メトリクスが含まれます。

概要

Potatoの品質管理は4つの主要機能で構成されています:

  1. 注意チェック - 既知の正解アイテムでアノテーターの集中度を検証
  2. ゴールドスタンダード - 専門家がラベル付けしたアイテムに対する精度を追跡
  3. 事前アノテーションサポート - モデル予測でフォームを事前入力
  4. 一致度メトリクス - リアルタイムでアノテーター間一致度を計算

注意チェック

注意チェックは、アノテーターが注意を払っていてランダムにクリックしていないことを確認する、既知の正解を持つアイテムです。

設定

yaml
attention_checks:
  enabled: true
  items_file: "attention_checks.json"
 
  # How often to inject attention checks
  frequency: 10              # Insert one every 10 items
  # OR
  probability: 0.1           # 10% chance per item
 
  # Optional: flag suspiciously fast responses
  min_response_time: 3.0     # Flag if answered in < 3 seconds
 
  # Failure handling
  failure_handling:
    warn_threshold: 2        # Show warning after 2 failures
    warn_message: "Please read items carefully before answering."
    block_threshold: 5       # Block user after 5 failures
    block_message: "You have been blocked due to too many incorrect responses."

注意チェックアイテムファイル

json
[
  {
    "id": "attn_001",
    "text": "Please select 'Positive' for this item to verify you are reading carefully.",
    "expected_answer": {
      "sentiment": "positive"
    }
  }
]

ゴールドスタンダード

ゴールドスタンダードは、アノテーターの精度を測定するために使用される専門家がラベル付けしたアイテムです。デフォルトでは、ゴールドスタンダードはサイレントです - 結果は管理者レビュー用に記録されますが、アノテーターにはフィードバックが表示されません。

設定

yaml
gold_standards:
  enabled: true
  items_file: "gold_standards.json"
 
  # How to use gold standards
  mode: "mixed"              # Options: training, mixed, separate
  frequency: 20              # Insert one every 20 items
 
  # Accuracy requirements
  accuracy:
    min_threshold: 0.7       # Minimum required accuracy (70%)
    evaluation_count: 10     # Evaluate after this many gold items
 
  # Feedback settings (disabled by default)
  feedback:
    show_correct_answer: false
    show_explanation: false
 
  # Auto-promotion from high-agreement items
  auto_promote:
    enabled: true
    min_annotators: 3
    agreement_threshold: 1.0   # 1.0 = unanimous

ゴールドスタンダードアイテムファイル

json
[
  {
    "id": "gold_001",
    "text": "The service was absolutely terrible and I will never return.",
    "gold_label": {
      "sentiment": "negative"
    },
    "explanation": "Strong negative language clearly indicates negative sentiment.",
    "difficulty": "easy"
  }
]

自動昇格

複数のアノテーターが一致すると、アイテムは自動的にゴールドスタンダードになれます:

yaml
gold_standards:
  auto_promote:
    enabled: true
    min_annotators: 3          # Wait for at least 3 annotators
    agreement_threshold: 1.0   # 100% must agree (unanimous)

事前アノテーションサポート

事前アノテーションは、モデル予測でアノテーションフォームを事前入力することを可能にし、能動学習や修正ワークフローに有用です。

設定

yaml
pre_annotation:
  enabled: true
  field: "predictions"        # Field in data containing predictions
  allow_modification: true    # Can annotators change pre-filled values?
  show_confidence: true
  highlight_low_confidence: 0.7

データ形式

データアイテムに予測を含めます:

json
{
  "id": "item_001",
  "text": "I love this product!",
  "predictions": {
    "sentiment": "positive",
    "confidence": 0.92
  }
}

一致度メトリクス

Krippendorffのアルファを使用したリアルタイムのアノテーター間一致度メトリクスが管理者ダッシュボードで利用可能です。

設定

yaml
agreement_metrics:
  enabled: true
  min_overlap: 2             # Minimum annotators per item
  auto_refresh: true
  refresh_interval: 60       # Seconds between updates

Krippendorffのアルファの解釈

アルファ値解釈
α ≥ 0.8良好な一致 - ほとんどの目的で信頼可能
0.67 ≤ α ≤ 0.8暫定的な一致 - 暫定的な結論を引き出す
0.33 ≤ α ≤ 0.67低い一致 - ガイドラインの見直しが必要
α ≤ 0.33不良な一致 - 重大な問題あり

管理者ダッシュボードとの統合

/adminの管理者ダッシュボードで品質管理メトリクスを確認できます:

  • 注意チェック:全体の合格/不合格率、アノテーターごとの統計
  • ゴールドスタンダード:アノテーターごとの精度、アイテムごとの難易度分析
  • 一致度:スキーマごとのKrippendorffのアルファと解釈
  • 自動昇格アイテム:高一致度から昇格したアイテムの一覧

APIエンドポイント

品質管理メトリクス

http
GET /admin/api/quality_control

注意チェックとゴールドスタンダードの統計を返します。

一致度メトリクス

http
GET /admin/api/agreement

スキーマごとのKrippendorffのアルファと解釈を返します。

完全な例

yaml
annotation_task_name: "Sentiment Analysis with Quality Control"
 
annotation_schemes:
  - name: sentiment
    annotation_type: radio
    labels: [positive, negative, neutral]
    description: "Select the sentiment of the text"
 
attention_checks:
  enabled: true
  items_file: "data/attention_checks.json"
  frequency: 15
  failure_handling:
    warn_threshold: 2
    block_threshold: 5
 
gold_standards:
  enabled: true
  items_file: "data/gold_standards.json"
  mode: mixed
  frequency: 25
  accuracy:
    min_threshold: 0.7
    evaluation_count: 5
 
agreement_metrics:
  enabled: true
  min_overlap: 2
  refresh_interval: 60

トラブルシューティング

注意チェックが表示されない

  1. items_fileのパスが正しいことを確認する(タスクディレクトリからの相対パス)
  2. アイテムに必須フィールド(idexpected_answer)があることを確認する
  3. frequencyまたはprobabilityが設定されていることを確認する

一致度メトリクスに「N人以上のアノテーターのアイテムがありません」と表示される

  1. アイテムが複数のユーザーによってアノテーションされていることを確認する
  2. 必要に応じてmin_overlapを下げる
  3. アノテーションが正しく保存されていることを確認する

関連情報

実装の詳細については、ソースドキュメントを参照してください。