الترتيب المتنوع
تنويع العناصر بناءً على التضمينات لتحقيق أقصى تنوع في التعليق التوضيحي.
الترتيب المتنوع
يستخدم الترتيب المتنوع تضمينات sentence-transformer لتجميع العناصر المتشابهة معاً، ثم يأخذ عينات من العناصر بالتناوب من مجموعات مختلفة. هذا يضمن أن يرى المعلّقون محتوى متنوعاً بدلاً من عناصر متشابهة متتالية.
الفوائد
- تقليل إرهاق المعلّقين من المحتوى المتكرر
- تحسين جودة التعليق التوضيحي من خلال السياق المتنوع
- تغطية أسرع لمساحة الموضوعات الكاملة
البدء السريع
yaml
assignment_strategy: diversity_clustering
diversity_ordering:
enabled: true
prefill_count: 100كيف يعمل
- بدء التشغيل: يتم تضمين أول N عنصر باستخدام sentence-transformers وتجميعها بخوارزمية k-means
- التعيين: يتم أخذ عينات من العناصر بالتناوب من المجموعات لضمان التنوع
- التعليق التوضيحي: يتم تضمين العناصر الجديدة بشكل غير متزامن أثناء التعليق عليها
- إعادة التجميع: عندما يأخذ المستخدم عينات من جميع المجموعات، يعيد النظام التجميع
الإعدادات
yaml
diversity_ordering:
enabled: true
# Sentence-transformer model
model_name: "all-MiniLM-L6-v2"
# Clustering parameters
num_clusters: 10
items_per_cluster: 20
auto_clusters: true # Auto-calculate based on data size
# Prefill on startup
prefill_count: 100
batch_size: 32
# Re-clustering behavior
recluster_threshold: 1.0 # Recluster when all clusters sampled
# Order preservation
preserve_visited: true
# AI integration
trigger_ai_prefetch: trueمرجع الإعدادات
| الخيار | النوع | القيمة الافتراضية | الوصف |
|---|---|---|---|
enabled | boolean | false | تفعيل الترتيب المتنوع |
model_name | string | "all-MiniLM-L6-v2" | نموذج sentence-transformers |
num_clusters | integer | 10 | عدد المجموعات (عندما يكون auto_clusters=false) |
items_per_cluster | integer | 20 | حجم المجموعة المستهدف (عندما يكون auto_clusters=true) |
auto_clusters | boolean | true | حساب عدد المجموعات تلقائياً |
prefill_count | integer | 100 | العناصر المراد تضمينها عند بدء التشغيل |
batch_size | integer | 32 | حجم الدفعة لحساب التضمينات |
recluster_threshold | float | 1.0 | نسبة المجموعات المراد أخذ عينات منها قبل إعادة التجميع |
preserve_visited | boolean | true | الاحتفاظ بالعناصر المُزارة/المتجاوَزة في مكانها |
trigger_ai_prefetch | boolean | true | تشغيل ذاكرة التخزين المؤقت للذكاء الاصطناعي بعد إعادة الترتيب |
المتطلبات
bash
pip install sentence-transformers scikit-learnهذه تبعيات اختيارية. بدونها، سيتم تعطيل الميزة مع عرض تحذير.
الأداء
- بدء التشغيل: حوالي 10 ثوانٍ لـ 100 عنصر، حوالي 30 ثانية لـ 500 عنصر (التشغيل الأول؛ يتم التخزين المؤقت بعد ذلك)
- الذاكرة: حوالي 1.5 كيلوبايت لكل عنصر (all-MiniLM-L6-v2)، حوالي 15 ميجابايت لـ 10,000 عنصر
- التخزين المؤقت: يتم حفظ التضمينات على القرص في
.diversity_cache/
التفاعل مع الميزات الأخرى
- دعم الذكاء الاصطناعي: عندما يكون
trigger_ai_prefetch: true، يتم جلب تلميحات الذكاء الاصطناعي تلقائياً مسبقاً للعناصر المُعاد ترتيبها - التعلم النشط: يمكن دمجه بالبدء بتجميع التنوع للتغطية الأولية، ثم التبديل إلى التعلم النشط
- الحفاظ على الترتيب: عندما يكون
preserve_visited: true، تحتفظ العناصر التي تمت زيارتها سابقاً بموضعها
مثال كامل
yaml
annotation_task_name: "Diversity Ordering Test"
assignment_strategy: diversity_clustering
diversity_ordering:
enabled: true
model_name: "all-MiniLM-L6-v2"
num_clusters: 5
auto_clusters: false
prefill_count: 100
batch_size: 16
recluster_threshold: 1.0
preserve_visited: true
annotation_schemes:
- annotation_type: radio
name: topic
description: "What is the main topic of this text?"
labels:
- name: Sports
- name: Technology
- name: Food
- name: Travel
- name: Healthقراءة إضافية
- دعم الذكاء الاصطناعي - اقتراحات التسميات بالذكاء الاصطناعي
- التعلم النشط - ترتيب أولوية العناصر بالتعلم الآلي
- تمييز الخيارات - توجيه الخيارات بمساعدة الذكاء الاصطناعي
للاطلاع على تفاصيل التنفيذ، راجع الوثائق المصدرية.