Skip to content
このページはまだお使いの言語に翻訳されていません。英語版を表示しています。

Diversity Ordering

Annotation विविधता को अधिकतम करने के लिए Embedding-based item diversification।

Diversity Ordering

Diversity ordering समान items को एक साथ cluster करने के लिए sentence-transformer embeddings का उपयोग करता है, फिर विभिन्न clusters से round-robin में items sample करता है। यह सुनिश्चित करता है कि annotators क्रम में समान items के बजाय विविध content देखें।

लाभ

  • Annotator fatigue कम करें repetitive content से
  • Annotation गुणवत्ता सुधारें विविध context के माध्यम से
  • पूर्ण topic space की तेज़ coverage

Quick Start

yaml
assignment_strategy: diversity_clustering
 
diversity_ordering:
  enabled: true
  prefill_count: 100

यह कैसे काम करता है

  1. Startup: पहले N items को sentence-transformers का उपयोग करके embed किया जाता है और k-means से cluster किया जाता है
  2. Assignment: Variety सुनिश्चित करते हुए clusters से round-robin में items sample किए जाते हैं
  3. Annotation: नए items को annotate होने पर asynchronously embed किया जाता है
  4. Re-clustering: जब किसी user ने सभी clusters से sample लिया हो, system reclusters करता है

कॉन्फ़िगरेशन

yaml
diversity_ordering:
  enabled: true
 
  # Sentence-transformer model
  model_name: "all-MiniLM-L6-v2"
 
  # Clustering parameters
  num_clusters: 10
  items_per_cluster: 20
  auto_clusters: true           # Auto-calculate based on data size
 
  # Prefill on startup
  prefill_count: 100
  batch_size: 32
 
  # Re-clustering behavior
  recluster_threshold: 1.0      # Recluster when all clusters sampled
 
  # Order preservation
  preserve_visited: true
 
  # AI integration
  trigger_ai_prefetch: true

कॉन्फ़िगरेशन Reference

OptionTypeDefaultविवरण
enabledbooleanfalseDiversity ordering सक्षम करें
model_namestring"all-MiniLM-L6-v2"Sentence-transformers model
num_clustersinteger10Clusters की संख्या (auto_clusters=false होने पर)
items_per_clusterinteger20Target cluster size (auto_clusters=true होने पर)
auto_clustersbooleantrueCluster count स्वचालित रूप से calculate करें
prefill_countinteger100Startup पर embed करने के लिए items
batch_sizeinteger32Embedding computation के लिए batch size
recluster_thresholdfloat1.0Recluster से पहले sample करने वाले clusters का fraction
preserve_visitedbooleantrueVisited/skipped items को स्थान पर रखें
trigger_ai_prefetchbooleantrueReordering के बाद AI cache trigger करें

आवश्यकताएँ

bash
pip install sentence-transformers scikit-learn

ये optional dependencies हैं। इनके बिना, feature एक warning के साथ disabled हो जाएगा।

प्रदर्शन

  • Startup: 100 items के लिए ~10 seconds, 500 items के लिए ~30 seconds (पहली बार; बाद में cached)
  • Memory: ~1.5 KB प्रति item (all-MiniLM-L6-v2), 10,000 items के लिए ~15 MB
  • Cache: Embeddings .diversity_cache/ में disk पर persist किए जाते हैं

अन्य Features के साथ Interaction

  • AI Support: जब trigger_ai_prefetch: true हो, reordered items के लिए AI hints स्वचालित रूप से prefetch किए जाते हैं
  • Active Learning: प्रारंभिक coverage के लिए diversity clustering से शुरू करके, फिर active learning पर switch करके मिलाया जा सकता है
  • Order Preservation: जब preserve_visited: true हो, पहले देखे गए items अपनी स्थिति बनाए रखते हैं

पूर्ण उदाहरण

yaml
annotation_task_name: "Diversity Ordering Test"
 
assignment_strategy: diversity_clustering
 
diversity_ordering:
  enabled: true
  model_name: "all-MiniLM-L6-v2"
  num_clusters: 5
  auto_clusters: false
  prefill_count: 100
  batch_size: 16
  recluster_threshold: 1.0
  preserve_visited: true
 
annotation_schemes:
  - annotation_type: radio
    name: topic
    description: "What is the main topic of this text?"
    labels:
      - name: Sports
      - name: Technology
      - name: Food
      - name: Travel
      - name: Health

आगे पढ़ें

कार्यान्वयन विवरण के लिए, source documentation देखें।