Potato 2.2: الأحداث، ربط الكيانات، التصدير، و55 أداة استبيان
يضيف Potato 2.2.0 تسعة مخططات توصيف جديدة، ونظام تصدير قابل للتوسيع، وتقدير كفاءة MACE، و55 أداة استبيان موثقة، ومصادر بيانات بعيدة.
Potato 2.2: الأحداث، ربط الكيانات، التصدير، و55 أداة استبيان
يسعدنا الإعلان عن Potato 2.2.0، إصدار رئيسي يوسّع بشكل كبير ما يمكنك توصيفه وكيف تدير جودة التوصيف. يضيف هذا التحديث 9 مخططات توصيف جديدة، ونظام تصدير قابل للتوسيع، وتقدير كفاءة MACE، و55 أداة استبيان موثقة، ومصادر بيانات بعيدة.
مخططات توصيف جديدة
توصيف الأحداث
الميزة الرئيسية للتوصيف في الإصدار 2.2 هي توصيف الأحداث المتعددة. تتكون الأحداث من نطاق مُحفّز (الكلمة التي تشير إلى الحدث) ونطاقات حجج مع أدوار دلالية مُصنّفة. يُربط تصوّر أقواس محورية المحفّزات بحججها.
annotation_schemes:
- annotation_type: event_annotation
name: events
span_schema: entities
event_types:
- type: "ATTACK"
trigger_labels: ["EVENT_TRIGGER"]
arguments:
- role: "attacker"
entity_types: ["PERSON", "ORGANIZATION"]
required: true
- role: "target"
entity_types: ["PERSON", "ORGANIZATION", "LOCATION"]
required: trueهذا يفتح مهام استخراج المعلومات ووسم الأدوار الدلالية وبناء الرسوم المعرفية التي كانت تتطلب سابقاً أدوات مخصصة.
ربط الكيانات
يمكن الآن ربط توصيفات النطاقات بقواعد معرفة خارجية. يُظلّل المُوصِّفون النص، ويعيّنون تسمية، ثم يستخدمون نافذة بحث للعثور على كيان Wikidata أو UMLS أو قاعدة معرفة مخصصة وربطه.
annotation_schemes:
- annotation_type: span
name: ner
labels: [PERSON, ORGANIZATION, LOCATION]
entity_linking:
enabled: true
knowledge_bases:
- name: wikidata
type: wikidata
language: enيدعم وضع الاختيار المتعدد للكيانات الغامضة وقواعد معرفة متعددة في مهمة واحدة.
الفرز، المقارنة الثنائية، المراجع المشتركة، والمزيد
ستة أنواع توصيف إضافية تُكمل إضافات مخططات الإصدار 2.2:
- الفرز -- واجهة قبول/رفض/تخطي لفحص البيانات السريع مع التقدم التلقائي واختصارات لوحة المفاتيح
- المقارنة الثنائية -- اختيار A/B ثنائي أو شريط تمرير للتعلم من التفضيلات وجمع بيانات RLHF
- أشجار المحادثات -- توصيف شجري هرمي مع تقييمات لكل عقدة واختيار المسار
- سلاسل المراجع المشتركة -- تجميع الإشارات المتطابقة في سلاسل مع مؤشرات بصرية
- أقنعة التجزئة -- أدوات تعبئة وممحاة وفرشاة جديدة لتوصيف الصور على مستوى البكسل
- النطاقات المتقطعة --
allow_discontinuous: trueلاختيارات نصية غير متجاورة
التوصيف الذكي
تقدير كفاءة MACE
يستخدم MACE خوارزمية بايز المتغيرة EM لتقدير التسميات الحقيقية ودرجات كفاءة المُوصِّفين (0.0-1.0) بشكل مشترك. يحدد المُوصِّفين الموثوقين ويكشف المُهملين وينتج تسميات متوقعة أعلى جودة.
mace:
enabled: true
trigger_every_n: 10
min_annotations_per_item: 3يعمل MACE تلقائياً في الخلفية ويتكامل مع لوحة تحكم المدير ونظام الحكم.
تمييز الخيارات
ميزة ذكاء اصطناعي جديدة تحلل المحتوى لتمييز الخيارات الأكثر احتمالاً للصحة في مهام التوصيف المنفصلة. تُعرض أفضل k خيارات بشفافية كاملة مع مؤشر نجمة بينما تُعتم الخيارات الأقل احتمالاً.
ai_support:
option_highlighting:
enabled: true
top_k: 3
dim_opacity: 0.4ترتيب التنوع
تُجمّع تضمينات sentence-transformer العناصر المتشابهة معاً، ثم يُقدّم أخذ العينات بالتناوب عناصر من مجموعات مختلفة. هذا يقلل إرهاق المُوصِّف ويحسّن تغطية مساحة المواضيع.
assignment_strategy: diversity_clustering
diversity_ordering:
enabled: true
prefill_count: 100نظام التصدير
يحوّل أمر التصدير الجديد (python -m potato.export) التوصيفات إلى 6 تنسيقات صناعية قياسية بأمر واحد:
python -m potato.export --config config.yaml --format coco --output ./export/
python -m potato.export --config config.yaml --format yolo --output ./export/
python -m potato.export --config config.yaml --format conll_2003 --output ./export/التنسيقات المدعومة: COCO وYOLO وPascal VOC وCoNLL-2003 وCoNLL-U وأقنعة التجزئة. النظام قابل للتوسيع -- أنشئ مُصدّرين مخصصين بوراثة BaseExporter.
مصادر البيانات البعيدة
حمّل بيانات التوصيف من عناوين URL وS3 وGoogle Drive وDropbox ومجموعات بيانات Hugging Face وGoogle Sheets وقواعد بيانات SQL:
data_sources:
- type: huggingface
dataset: "squad"
split: "train"
- type: s3
bucket: "my-annotation-data"
key: "datasets/items.jsonl"يتضمن التحميل الجزئي/التدريجي لمجموعات البيانات الكبيرة، والتخزين المؤقت المحلي، وإدارة بيانات الاعتماد الآمنة مع متغيرات البيئة.
اقرأ توثيق مصادر البيانات البعيدة →
أدوات الاستبيان
مكتبة من 55 استبياناً موثقاً جاهزاً للاستخدام في مراحل ما قبل الدراسة وما بعدها:
phases:
prestudy:
type: prestudy
instrument: "tipi" # 10-item personality questionnaire
poststudy:
type: poststudy
instrument: "phq-9" # 9-item depression screeningتمتد الأدوات عبر 8 فئات: الشخصية (BFI-2، TIPI)، الصحة النفسية (PHQ-9، GAD-7)، الوجدان (PANAS)، مفهوم الذات (RSE)، الاتجاهات الاجتماعية (SDO-7، MFQ)، أسلوب الاستجابة، النسخ المختصرة، والبطاريات الديموغرافية من المسوح الكبرى (ANES، GSS، ESS).
تحسينات تجربة المستخدم
- تتبع أجسام الفيديو مع استيفاء الإطارات المفتاحية
- توصيف مربعات الإحاطة على صفحات PDF
- دعم ملف إعداد ذكاء اصطناعي خارجي
- تحسينات شبكة تخطيط النماذج
الترقية إلى الإصدار 2.2
pip install --upgrade potato-annotationتعمل إعدادات الإصدارين 2.0 و2.1 الحالية بدون تغييرات -- جميع الميزات الجديدة اختيارية من خلال كتل إعداد إضافية.
البدء
- ما الجديد -- نظرة عامة كاملة على ميزات الإصدار 2.2
- توصيف الأحداث -- هياكل أحداث متعددة
- ربط الكيانات -- الربط بقواعد المعرفة
- MACE -- تقدير كفاءة المُوصِّفين
- تنسيقات التصدير -- أمر التصدير
- أدوات الاستبيان -- 55 استبياناً موثقاً
هل لديك أسئلة أو ملاحظات؟ انضم إلى Discord أو افتح مشكلة على GitHub.