多様性順序付け
埋め込みベースのアイテム多様化でアノテーションの多様性を最大化する。
多様性順序付け
多様性順序付けは、sentence-transformerの埋め込みを使用して類似アイテムをクラスタリングし、異なるクラスタからラウンドロビンでアイテムをサンプリングします。これにより、アノテーターが連続して類似コンテンツではなく多様なコンテンツを見ることが保証されます。
利点
- 繰り返しコンテンツによるアノテーター疲労の軽減
- 多様なコンテキストによるアノテーション品質の向上
- トピック空間全体のより速いカバレッジ
クイックスタート
yaml
assignment_strategy: diversity_clustering
diversity_ordering:
enabled: true
prefill_count: 100仕組み
- 起動時:最初のN個のアイテムがsentence-transformersを使用して埋め込まれ、k-meansでクラスタリングされる
- 割り当て:アイテムはクラスタからラウンドロビンでサンプリングされ、多様性を確保する
- アノテーション:新しいアイテムはアノテーション時に非同期的に埋め込まれる
- 再クラスタリング:ユーザーがすべてのクラスタからサンプリングしたら、システムが再クラスタリングする
設定
yaml
diversity_ordering:
enabled: true
# Sentence-transformer model
model_name: "all-MiniLM-L6-v2"
# Clustering parameters
num_clusters: 10
items_per_cluster: 20
auto_clusters: true # Auto-calculate based on data size
# Prefill on startup
prefill_count: 100
batch_size: 32
# Re-clustering behavior
recluster_threshold: 1.0 # Recluster when all clusters sampled
# Order preservation
preserve_visited: true
# AI integration
trigger_ai_prefetch: true設定リファレンス
| オプション | 型 | デフォルト | 説明 |
|---|---|---|---|
enabled | boolean | false | 多様性順序付けの有効化 |
model_name | string | "all-MiniLM-L6-v2" | sentence-transformersモデル |
num_clusters | integer | 10 | クラスタ数(auto_clusters=false時) |
items_per_cluster | integer | 20 | 目標クラスタサイズ(auto_clusters=true時) |
auto_clusters | boolean | true | クラスタ数を自動計算 |
prefill_count | integer | 100 | 起動時に埋め込むアイテム数 |
batch_size | integer | 32 | 埋め込み計算のバッチサイズ |
recluster_threshold | float | 1.0 | 再クラスタリング前にサンプリングするクラスタの割合 |
preserve_visited | boolean | true | 訪問済み/スキップ済みアイテムを元の位置に維持 |
trigger_ai_prefetch | boolean | true | 並べ替え後にAIキャッシュをトリガー |
要件
bash
pip install sentence-transformers scikit-learnこれらはオプションの依存関係です。インストールされていない場合、機能は警告付きで無効になります。
パフォーマンス
- 起動時:100アイテムで約10秒、500アイテムで約30秒(初回実行時。以降はキャッシュ済み)
- メモリ:アイテムあたり約1.5 KB(all-MiniLM-L6-v2)、10,000アイテムで約15 MB
- キャッシュ:埋め込みは
.diversity_cache/にディスク永続化
他の機能との連携
- AIサポート:
trigger_ai_prefetch: trueの場合、並べ替えられたアイテムに対してAIヒントが自動的にプリフェッチされる - 能動学習:初期カバレッジのために多様性クラスタリングから始め、その後能動学習に切り替えることで組み合わせ可能
- 順序保持:
preserve_visited: trueの場合、以前に見たアイテムはその位置を維持する
完全な例
yaml
annotation_task_name: "Diversity Ordering Test"
assignment_strategy: diversity_clustering
diversity_ordering:
enabled: true
model_name: "all-MiniLM-L6-v2"
num_clusters: 5
auto_clusters: false
prefill_count: 100
batch_size: 16
recluster_threshold: 1.0
preserve_visited: true
annotation_schemes:
- annotation_type: radio
name: topic
description: "What is the main topic of this text?"
labels:
- name: Sports
- name: Technology
- name: Food
- name: Travel
- name: Health関連情報
- AIサポート - AIラベル提案
- 能動学習 - MLベースのインスタンス優先順位付け
- オプションハイライト - AI支援オプションガイダンス
実装の詳細については、ソースドキュメントを参照してください。