Questa pagina non è ancora disponibile nella tua lingua. Viene mostrata la versione in inglese.

Diversity Ordering

Annotation विविधता को अधिकतम करने के लिए Embedding-based item diversification।

Diversity Ordering

Diversity ordering समान items को एक साथ cluster करने के लिए sentence-transformer embeddings का उपयोग करता है, फिर विभिन्न clusters से round-robin में items sample करता है। यह सुनिश्चित करता है कि annotators क्रम में समान items के बजाय विविध content देखें।

लाभ

Annotator fatigue कम करें repetitive content से
Annotation गुणवत्ता सुधारें विविध context के माध्यम से
पूर्ण topic space की तेज़ coverage

Quick Start

yaml

assignment_strategy: diversity_clustering
 
diversity_ordering:
  enabled: true
  prefill_count: 100

यह कैसे काम करता है

Startup: पहले N items को sentence-transformers का उपयोग करके embed किया जाता है और k-means से cluster किया जाता है
Assignment: Variety सुनिश्चित करते हुए clusters से round-robin में items sample किए जाते हैं
Annotation: नए items को annotate होने पर asynchronously embed किया जाता है
Re-clustering: जब किसी user ने सभी clusters से sample लिया हो, system reclusters करता है

कॉन्फ़िगरेशन

yaml

diversity_ordering:
  enabled: true
 
  # Sentence-transformer model
  model_name: "all-MiniLM-L6-v2"
 
  # Clustering parameters
  num_clusters: 10
  items_per_cluster: 20
  auto_clusters: true           # Auto-calculate based on data size
 
  # Prefill on startup
  prefill_count: 100
  batch_size: 32
 
  # Re-clustering behavior
  recluster_threshold: 1.0      # Recluster when all clusters sampled
 
  # Order preservation
  preserve_visited: true
 
  # AI integration
  trigger_ai_prefetch: true

कॉन्फ़िगरेशन Reference

Option	Type	Default	विवरण
`enabled`	boolean	`false`	Diversity ordering सक्षम करें
`model_name`	string	`"all-MiniLM-L6-v2"`	Sentence-transformers model
`num_clusters`	integer	`10`	Clusters की संख्या (`auto_clusters=false` होने पर)
`items_per_cluster`	integer	`20`	Target cluster size (`auto_clusters=true` होने पर)
`auto_clusters`	boolean	`true`	Cluster count स्वचालित रूप से calculate करें
`prefill_count`	integer	`100`	Startup पर embed करने के लिए items
`batch_size`	integer	`32`	Embedding computation के लिए batch size
`recluster_threshold`	float	`1.0`	Recluster से पहले sample करने वाले clusters का fraction
`preserve_visited`	boolean	`true`	Visited/skipped items को स्थान पर रखें
`trigger_ai_prefetch`	boolean	`true`	Reordering के बाद AI cache trigger करें

आवश्यकताएँ

bash

pip install sentence-transformers scikit-learn

ये optional dependencies हैं। इनके बिना, feature एक warning के साथ disabled हो जाएगा।

प्रदर्शन

Startup: 100 items के लिए ~10 seconds, 500 items के लिए ~30 seconds (पहली बार; बाद में cached)
Memory: ~1.5 KB प्रति item (all-MiniLM-L6-v2), 10,000 items के लिए ~15 MB
Cache: Embeddings .diversity_cache/ में disk पर persist किए जाते हैं

अन्य Features के साथ Interaction

AI Support: जब trigger_ai_prefetch: true हो, reordered items के लिए AI hints स्वचालित रूप से prefetch किए जाते हैं
Active Learning: प्रारंभिक coverage के लिए diversity clustering से शुरू करके, फिर active learning पर switch करके मिलाया जा सकता है
Order Preservation: जब preserve_visited: true हो, पहले देखे गए items अपनी स्थिति बनाए रखते हैं

पूर्ण उदाहरण

yaml

annotation_task_name: "Diversity Ordering Test"
 
assignment_strategy: diversity_clustering
 
diversity_ordering:
  enabled: true
  model_name: "all-MiniLM-L6-v2"
  num_clusters: 5
  auto_clusters: false
  prefill_count: 100
  batch_size: 16
  recluster_threshold: 1.0
  preserve_visited: true
 
annotation_schemes:
  - annotation_type: radio
    name: topic
    description: "What is the main topic of this text?"
    labels:
      - name: Sports
      - name: Technology
      - name: Food
      - name: Travel
      - name: Health

आगे पढ़ें

AI Support - AI label suggestions
Active Learning - ML-based instance prioritization
Option Highlighting - AI-assisted option guidance

कार्यान्वयन विवरण के लिए, source documentation देखें।