Skip to content

الترتيب المتنوع

تنويع العناصر بناءً على التضمينات لتحقيق أقصى تنوع في التعليق التوضيحي.

الترتيب المتنوع

يستخدم الترتيب المتنوع تضمينات sentence-transformer لتجميع العناصر المتشابهة معاً، ثم يأخذ عينات من العناصر بالتناوب من مجموعات مختلفة. هذا يضمن أن يرى المعلّقون محتوى متنوعاً بدلاً من عناصر متشابهة متتالية.

الفوائد

  • تقليل إرهاق المعلّقين من المحتوى المتكرر
  • تحسين جودة التعليق التوضيحي من خلال السياق المتنوع
  • تغطية أسرع لمساحة الموضوعات الكاملة

البدء السريع

yaml
assignment_strategy: diversity_clustering
 
diversity_ordering:
  enabled: true
  prefill_count: 100

كيف يعمل

  1. بدء التشغيل: يتم تضمين أول N عنصر باستخدام sentence-transformers وتجميعها بخوارزمية k-means
  2. التعيين: يتم أخذ عينات من العناصر بالتناوب من المجموعات لضمان التنوع
  3. التعليق التوضيحي: يتم تضمين العناصر الجديدة بشكل غير متزامن أثناء التعليق عليها
  4. إعادة التجميع: عندما يأخذ المستخدم عينات من جميع المجموعات، يعيد النظام التجميع

الإعدادات

yaml
diversity_ordering:
  enabled: true
 
  # Sentence-transformer model
  model_name: "all-MiniLM-L6-v2"
 
  # Clustering parameters
  num_clusters: 10
  items_per_cluster: 20
  auto_clusters: true           # Auto-calculate based on data size
 
  # Prefill on startup
  prefill_count: 100
  batch_size: 32
 
  # Re-clustering behavior
  recluster_threshold: 1.0      # Recluster when all clusters sampled
 
  # Order preservation
  preserve_visited: true
 
  # AI integration
  trigger_ai_prefetch: true

مرجع الإعدادات

الخيارالنوعالقيمة الافتراضيةالوصف
enabledbooleanfalseتفعيل الترتيب المتنوع
model_namestring"all-MiniLM-L6-v2"نموذج sentence-transformers
num_clustersinteger10عدد المجموعات (عندما يكون auto_clusters=false)
items_per_clusterinteger20حجم المجموعة المستهدف (عندما يكون auto_clusters=true)
auto_clustersbooleantrueحساب عدد المجموعات تلقائياً
prefill_countinteger100العناصر المراد تضمينها عند بدء التشغيل
batch_sizeinteger32حجم الدفعة لحساب التضمينات
recluster_thresholdfloat1.0نسبة المجموعات المراد أخذ عينات منها قبل إعادة التجميع
preserve_visitedbooleantrueالاحتفاظ بالعناصر المُزارة/المتجاوَزة في مكانها
trigger_ai_prefetchbooleantrueتشغيل ذاكرة التخزين المؤقت للذكاء الاصطناعي بعد إعادة الترتيب

المتطلبات

bash
pip install sentence-transformers scikit-learn

هذه تبعيات اختيارية. بدونها، سيتم تعطيل الميزة مع عرض تحذير.

الأداء

  • بدء التشغيل: حوالي 10 ثوانٍ لـ 100 عنصر، حوالي 30 ثانية لـ 500 عنصر (التشغيل الأول؛ يتم التخزين المؤقت بعد ذلك)
  • الذاكرة: حوالي 1.5 كيلوبايت لكل عنصر (all-MiniLM-L6-v2)، حوالي 15 ميجابايت لـ 10,000 عنصر
  • التخزين المؤقت: يتم حفظ التضمينات على القرص في .diversity_cache/

التفاعل مع الميزات الأخرى

  • دعم الذكاء الاصطناعي: عندما يكون trigger_ai_prefetch: true، يتم جلب تلميحات الذكاء الاصطناعي تلقائياً مسبقاً للعناصر المُعاد ترتيبها
  • التعلم النشط: يمكن دمجه بالبدء بتجميع التنوع للتغطية الأولية، ثم التبديل إلى التعلم النشط
  • الحفاظ على الترتيب: عندما يكون preserve_visited: true، تحتفظ العناصر التي تمت زيارتها سابقاً بموضعها

مثال كامل

yaml
annotation_task_name: "Diversity Ordering Test"
 
assignment_strategy: diversity_clustering
 
diversity_ordering:
  enabled: true
  model_name: "all-MiniLM-L6-v2"
  num_clusters: 5
  auto_clusters: false
  prefill_count: 100
  batch_size: 16
  recluster_threshold: 1.0
  preserve_visited: true
 
annotation_schemes:
  - annotation_type: radio
    name: topic
    description: "What is the main topic of this text?"
    labels:
      - name: Sports
      - name: Technology
      - name: Food
      - name: Travel
      - name: Health

قراءة إضافية

للاطلاع على تفاصيل التنفيذ، راجع الوثائق المصدرية.