Questa pagina non è ancora disponibile nella tua lingua. Viene mostrata la versione in inglese.
Diversity Ordering
Annotation विविधता को अधिकतम करने के लिए Embedding-based item diversification।
Diversity Ordering
Diversity ordering समान items को एक साथ cluster करने के लिए sentence-transformer embeddings का उपयोग करता है, फिर विभिन्न clusters से round-robin में items sample करता है। यह सुनिश्चित करता है कि annotators क्रम में समान items के बजाय विविध content देखें।
लाभ
- Annotator fatigue कम करें repetitive content से
- Annotation गुणवत्ता सुधारें विविध context के माध्यम से
- पूर्ण topic space की तेज़ coverage
Quick Start
yaml
assignment_strategy: diversity_clustering
diversity_ordering:
enabled: true
prefill_count: 100यह कैसे काम करता है
- Startup: पहले N items को sentence-transformers का उपयोग करके embed किया जाता है और k-means से cluster किया जाता है
- Assignment: Variety सुनिश्चित करते हुए clusters से round-robin में items sample किए जाते हैं
- Annotation: नए items को annotate होने पर asynchronously embed किया जाता है
- Re-clustering: जब किसी user ने सभी clusters से sample लिया हो, system reclusters करता है
कॉन्फ़िगरेशन
yaml
diversity_ordering:
enabled: true
# Sentence-transformer model
model_name: "all-MiniLM-L6-v2"
# Clustering parameters
num_clusters: 10
items_per_cluster: 20
auto_clusters: true # Auto-calculate based on data size
# Prefill on startup
prefill_count: 100
batch_size: 32
# Re-clustering behavior
recluster_threshold: 1.0 # Recluster when all clusters sampled
# Order preservation
preserve_visited: true
# AI integration
trigger_ai_prefetch: trueकॉन्फ़िगरेशन Reference
| Option | Type | Default | विवरण |
|---|---|---|---|
enabled | boolean | false | Diversity ordering सक्षम करें |
model_name | string | "all-MiniLM-L6-v2" | Sentence-transformers model |
num_clusters | integer | 10 | Clusters की संख्या (auto_clusters=false होने पर) |
items_per_cluster | integer | 20 | Target cluster size (auto_clusters=true होने पर) |
auto_clusters | boolean | true | Cluster count स्वचालित रूप से calculate करें |
prefill_count | integer | 100 | Startup पर embed करने के लिए items |
batch_size | integer | 32 | Embedding computation के लिए batch size |
recluster_threshold | float | 1.0 | Recluster से पहले sample करने वाले clusters का fraction |
preserve_visited | boolean | true | Visited/skipped items को स्थान पर रखें |
trigger_ai_prefetch | boolean | true | Reordering के बाद AI cache trigger करें |
आवश्यकताएँ
bash
pip install sentence-transformers scikit-learnये optional dependencies हैं। इनके बिना, feature एक warning के साथ disabled हो जाएगा।
प्रदर्शन
- Startup: 100 items के लिए ~10 seconds, 500 items के लिए ~30 seconds (पहली बार; बाद में cached)
- Memory: ~1.5 KB प्रति item (all-MiniLM-L6-v2), 10,000 items के लिए ~15 MB
- Cache: Embeddings
.diversity_cache/में disk पर persist किए जाते हैं
अन्य Features के साथ Interaction
- AI Support: जब
trigger_ai_prefetch: trueहो, reordered items के लिए AI hints स्वचालित रूप से prefetch किए जाते हैं - Active Learning: प्रारंभिक coverage के लिए diversity clustering से शुरू करके, फिर active learning पर switch करके मिलाया जा सकता है
- Order Preservation: जब
preserve_visited: trueहो, पहले देखे गए items अपनी स्थिति बनाए रखते हैं
पूर्ण उदाहरण
yaml
annotation_task_name: "Diversity Ordering Test"
assignment_strategy: diversity_clustering
diversity_ordering:
enabled: true
model_name: "all-MiniLM-L6-v2"
num_clusters: 5
auto_clusters: false
prefill_count: 100
batch_size: 16
recluster_threshold: 1.0
preserve_visited: true
annotation_schemes:
- annotation_type: radio
name: topic
description: "What is the main topic of this text?"
labels:
- name: Sports
- name: Technology
- name: Food
- name: Travel
- name: Healthआगे पढ़ें
- AI Support - AI label suggestions
- Active Learning - ML-based instance prioritization
- Option Highlighting - AI-assisted option guidance
कार्यान्वयन विवरण के लिए, source documentation देखें।