Skip to content
Announcements4 min read

Potato 2.2: الأحداث، ربط الكيانات، التصدير، و55 أداة استبيان

يضيف Potato 2.2.0 تسعة مخططات توصيف جديدة، ونظام تصدير قابل للتوسيع، وتقدير كفاءة MACE، و55 أداة استبيان موثقة، ومصادر بيانات بعيدة.

Potato Team·

Potato 2.2: الأحداث، ربط الكيانات، التصدير، و55 أداة استبيان

يسعدنا الإعلان عن Potato 2.2.0، إصدار رئيسي يوسّع بشكل كبير ما يمكنك توصيفه وكيف تدير جودة التوصيف. يضيف هذا التحديث 9 مخططات توصيف جديدة، ونظام تصدير قابل للتوسيع، وتقدير كفاءة MACE، و55 أداة استبيان موثقة، ومصادر بيانات بعيدة.

مخططات توصيف جديدة

توصيف الأحداث

الميزة الرئيسية للتوصيف في الإصدار 2.2 هي توصيف الأحداث المتعددة. تتكون الأحداث من نطاق مُحفّز (الكلمة التي تشير إلى الحدث) ونطاقات حجج مع أدوار دلالية مُصنّفة. يُربط تصوّر أقواس محورية المحفّزات بحججها.

yaml
annotation_schemes:
  - annotation_type: event_annotation
    name: events
    span_schema: entities
    event_types:
      - type: "ATTACK"
        trigger_labels: ["EVENT_TRIGGER"]
        arguments:
          - role: "attacker"
            entity_types: ["PERSON", "ORGANIZATION"]
            required: true
          - role: "target"
            entity_types: ["PERSON", "ORGANIZATION", "LOCATION"]
            required: true

هذا يفتح مهام استخراج المعلومات ووسم الأدوار الدلالية وبناء الرسوم المعرفية التي كانت تتطلب سابقاً أدوات مخصصة.

اقرأ توثيق توصيف الأحداث →

ربط الكيانات

يمكن الآن ربط توصيفات النطاقات بقواعد معرفة خارجية. يُظلّل المُوصِّفون النص، ويعيّنون تسمية، ثم يستخدمون نافذة بحث للعثور على كيان Wikidata أو UMLS أو قاعدة معرفة مخصصة وربطه.

yaml
annotation_schemes:
  - annotation_type: span
    name: ner
    labels: [PERSON, ORGANIZATION, LOCATION]
    entity_linking:
      enabled: true
      knowledge_bases:
        - name: wikidata
          type: wikidata
          language: en

يدعم وضع الاختيار المتعدد للكيانات الغامضة وقواعد معرفة متعددة في مهمة واحدة.

اقرأ توثيق ربط الكيانات →

الفرز، المقارنة الثنائية، المراجع المشتركة، والمزيد

ستة أنواع توصيف إضافية تُكمل إضافات مخططات الإصدار 2.2:

  • الفرز -- واجهة قبول/رفض/تخطي لفحص البيانات السريع مع التقدم التلقائي واختصارات لوحة المفاتيح
  • المقارنة الثنائية -- اختيار A/B ثنائي أو شريط تمرير للتعلم من التفضيلات وجمع بيانات RLHF
  • أشجار المحادثات -- توصيف شجري هرمي مع تقييمات لكل عقدة واختيار المسار
  • سلاسل المراجع المشتركة -- تجميع الإشارات المتطابقة في سلاسل مع مؤشرات بصرية
  • أقنعة التجزئة -- أدوات تعبئة وممحاة وفرشاة جديدة لتوصيف الصور على مستوى البكسل
  • النطاقات المتقطعة -- allow_discontinuous: true لاختيارات نصية غير متجاورة

التوصيف الذكي

تقدير كفاءة MACE

يستخدم MACE خوارزمية بايز المتغيرة EM لتقدير التسميات الحقيقية ودرجات كفاءة المُوصِّفين (0.0-1.0) بشكل مشترك. يحدد المُوصِّفين الموثوقين ويكشف المُهملين وينتج تسميات متوقعة أعلى جودة.

yaml
mace:
  enabled: true
  trigger_every_n: 10
  min_annotations_per_item: 3

يعمل MACE تلقائياً في الخلفية ويتكامل مع لوحة تحكم المدير ونظام الحكم.

اقرأ توثيق MACE →

تمييز الخيارات

ميزة ذكاء اصطناعي جديدة تحلل المحتوى لتمييز الخيارات الأكثر احتمالاً للصحة في مهام التوصيف المنفصلة. تُعرض أفضل k خيارات بشفافية كاملة مع مؤشر نجمة بينما تُعتم الخيارات الأقل احتمالاً.

yaml
ai_support:
  option_highlighting:
    enabled: true
    top_k: 3
    dim_opacity: 0.4

اقرأ توثيق تمييز الخيارات →

ترتيب التنوع

تُجمّع تضمينات sentence-transformer العناصر المتشابهة معاً، ثم يُقدّم أخذ العينات بالتناوب عناصر من مجموعات مختلفة. هذا يقلل إرهاق المُوصِّف ويحسّن تغطية مساحة المواضيع.

yaml
assignment_strategy: diversity_clustering
diversity_ordering:
  enabled: true
  prefill_count: 100

اقرأ توثيق ترتيب التنوع →

نظام التصدير

يحوّل أمر التصدير الجديد (python -m potato.export) التوصيفات إلى 6 تنسيقات صناعية قياسية بأمر واحد:

bash
python -m potato.export --config config.yaml --format coco --output ./export/
python -m potato.export --config config.yaml --format yolo --output ./export/
python -m potato.export --config config.yaml --format conll_2003 --output ./export/

التنسيقات المدعومة: COCO وYOLO وPascal VOC وCoNLL-2003 وCoNLL-U وأقنعة التجزئة. النظام قابل للتوسيع -- أنشئ مُصدّرين مخصصين بوراثة BaseExporter.

اقرأ توثيق تنسيقات التصدير →

مصادر البيانات البعيدة

حمّل بيانات التوصيف من عناوين URL وS3 وGoogle Drive وDropbox ومجموعات بيانات Hugging Face وGoogle Sheets وقواعد بيانات SQL:

yaml
data_sources:
  - type: huggingface
    dataset: "squad"
    split: "train"
 
  - type: s3
    bucket: "my-annotation-data"
    key: "datasets/items.jsonl"

يتضمن التحميل الجزئي/التدريجي لمجموعات البيانات الكبيرة، والتخزين المؤقت المحلي، وإدارة بيانات الاعتماد الآمنة مع متغيرات البيئة.

اقرأ توثيق مصادر البيانات البعيدة →

أدوات الاستبيان

مكتبة من 55 استبياناً موثقاً جاهزاً للاستخدام في مراحل ما قبل الدراسة وما بعدها:

yaml
phases:
  prestudy:
    type: prestudy
    instrument: "tipi"      # 10-item personality questionnaire
 
  poststudy:
    type: poststudy
    instrument: "phq-9"     # 9-item depression screening

تمتد الأدوات عبر 8 فئات: الشخصية (BFI-2، TIPI)، الصحة النفسية (PHQ-9، GAD-7)، الوجدان (PANAS)، مفهوم الذات (RSE)، الاتجاهات الاجتماعية (SDO-7، MFQ)، أسلوب الاستجابة، النسخ المختصرة، والبطاريات الديموغرافية من المسوح الكبرى (ANES، GSS، ESS).

اقرأ توثيق أدوات الاستبيان →

تحسينات تجربة المستخدم

  • تتبع أجسام الفيديو مع استيفاء الإطارات المفتاحية
  • توصيف مربعات الإحاطة على صفحات PDF
  • دعم ملف إعداد ذكاء اصطناعي خارجي
  • تحسينات شبكة تخطيط النماذج

الترقية إلى الإصدار 2.2

bash
pip install --upgrade potato-annotation

تعمل إعدادات الإصدارين 2.0 و2.1 الحالية بدون تغييرات -- جميع الميزات الجديدة اختيارية من خلال كتل إعداد إضافية.

البدء


هل لديك أسئلة أو ملاحظات؟ انضم إلى Discord أو افتح مشكلة على GitHub.