Skip to content

多様性順序付け

埋め込みベースのアイテム多様化でアノテーションの多様性を最大化する。

多様性順序付け

多様性順序付けは、sentence-transformerの埋め込みを使用して類似アイテムをクラスタリングし、異なるクラスタからラウンドロビンでアイテムをサンプリングします。これにより、アノテーターが連続して類似コンテンツではなく多様なコンテンツを見ることが保証されます。

利点

  • 繰り返しコンテンツによるアノテーター疲労の軽減
  • 多様なコンテキストによるアノテーション品質の向上
  • トピック空間全体のより速いカバレッジ

クイックスタート

yaml
assignment_strategy: diversity_clustering
 
diversity_ordering:
  enabled: true
  prefill_count: 100

仕組み

  1. 起動時:最初のN個のアイテムがsentence-transformersを使用して埋め込まれ、k-meansでクラスタリングされる
  2. 割り当て:アイテムはクラスタからラウンドロビンでサンプリングされ、多様性を確保する
  3. アノテーション:新しいアイテムはアノテーション時に非同期的に埋め込まれる
  4. 再クラスタリング:ユーザーがすべてのクラスタからサンプリングしたら、システムが再クラスタリングする

設定

yaml
diversity_ordering:
  enabled: true
 
  # Sentence-transformer model
  model_name: "all-MiniLM-L6-v2"
 
  # Clustering parameters
  num_clusters: 10
  items_per_cluster: 20
  auto_clusters: true           # Auto-calculate based on data size
 
  # Prefill on startup
  prefill_count: 100
  batch_size: 32
 
  # Re-clustering behavior
  recluster_threshold: 1.0      # Recluster when all clusters sampled
 
  # Order preservation
  preserve_visited: true
 
  # AI integration
  trigger_ai_prefetch: true

設定リファレンス

オプションデフォルト説明
enabledbooleanfalse多様性順序付けの有効化
model_namestring"all-MiniLM-L6-v2"sentence-transformersモデル
num_clustersinteger10クラスタ数(auto_clusters=false時)
items_per_clusterinteger20目標クラスタサイズ(auto_clusters=true時)
auto_clustersbooleantrueクラスタ数を自動計算
prefill_countinteger100起動時に埋め込むアイテム数
batch_sizeinteger32埋め込み計算のバッチサイズ
recluster_thresholdfloat1.0再クラスタリング前にサンプリングするクラスタの割合
preserve_visitedbooleantrue訪問済み/スキップ済みアイテムを元の位置に維持
trigger_ai_prefetchbooleantrue並べ替え後にAIキャッシュをトリガー

要件

bash
pip install sentence-transformers scikit-learn

これらはオプションの依存関係です。インストールされていない場合、機能は警告付きで無効になります。

パフォーマンス

  • 起動時:100アイテムで約10秒、500アイテムで約30秒(初回実行時。以降はキャッシュ済み)
  • メモリ:アイテムあたり約1.5 KB(all-MiniLM-L6-v2)、10,000アイテムで約15 MB
  • キャッシュ:埋め込みは.diversity_cache/にディスク永続化

他の機能との連携

  • AIサポートtrigger_ai_prefetch: trueの場合、並べ替えられたアイテムに対してAIヒントが自動的にプリフェッチされる
  • 能動学習:初期カバレッジのために多様性クラスタリングから始め、その後能動学習に切り替えることで組み合わせ可能
  • 順序保持preserve_visited: trueの場合、以前に見たアイテムはその位置を維持する

完全な例

yaml
annotation_task_name: "Diversity Ordering Test"
 
assignment_strategy: diversity_clustering
 
diversity_ordering:
  enabled: true
  model_name: "all-MiniLM-L6-v2"
  num_clusters: 5
  auto_clusters: false
  prefill_count: 100
  batch_size: 16
  recluster_threshold: 1.0
  preserve_visited: true
 
annotation_schemes:
  - annotation_type: radio
    name: topic
    description: "What is the main topic of this text?"
    labels:
      - name: Sports
      - name: Technology
      - name: Food
      - name: Travel
      - name: Health

関連情報

実装の詳細については、ソースドキュメントを参照してください。