Note: This post describes Potato 2.1 as it was at release. Some configuration keys and features have been updated in later versions. See the current documentation for up-to-date configuration syntax.

يسعدنا الإعلان عن Potato 2.1.0، إصدار مليء بالميزات يجلب خمس إمكانيات رئيسية لمنصة التوصيف. يركز هذا التحديث على عرض المحتوى متعدد الوسائط، والتوصيف البصري المدعوم بالذكاء الاصطناعي، وتوصيف العلاقات الأغنى.

نظام عرض النماذج

الميزة الرئيسية في الإصدار 2.1 هي كتلة إعداد instance_display الجديدة. سابقاً، كان عرض صورة بجانب أزرار الاختيار يتطلب حلولاً بديلة مثل إنشاء مخطط image_annotation مع min_annotations: 0. الآن يمكنك فصل المحتوى المعروض عن التوصيفات المطلوب جمعها بشكل صريح.

yaml

instance_display:
  layout:
    direction: horizontal
    gap: 24px
  fields:
    - key: image_url
      type: image
      label: "Image to Classify"
      display_options:
        max_width: 600
        zoomable: true
    - key: description
      type: text
      label: "Context"
 
annotation_schemes:
  - annotation_type: radio
    name: category
    labels: [nature, urban, people, objects]

يدعم عرض النماذج 11 نوع محتوى: text، html، image، video، audio، dialogue، pairwise، code، spreadsheet، document، وpdf. يمكنك دمج حقول عرض متعددة مع أي مخطط توصيف، وترتيبها أفقياً أو عمودياً، وتفعيل توصيف النطاقات على حقول النص مع span_target: true.

ميزة بارزة هي تقييمات لكل دور في الحوار -- يمكنك إضافة عناصر تقييم Likert مباشرة على أدوار المحادثة الفردية، مما يسمح للمُوصِّفين بتقييم متحدثين محددين دون مغادرة عرض المحادثة.

اقرأ التوثيق الكامل لعرض النماذج →

توصيف النطاقات متعدد الحقول

يدعم توصيف النطاقات الآن خيار target_field، مما يتيح التوصيف عبر حقول نصية متعددة في نفس نموذج البيانات. هذا ضروري لمهام مثل تقييم التلخيص حيث تحتاج لتوصيف الكيانات في كل من المستند المصدر وملخصه.

yaml

annotation_schemes:
  - annotation_type: span
    name: source_entities
    target_field: "source_text"
    labels: [PERSON, ORGANIZATION, LOCATION]
 
  - annotation_type: span
    name: summary_entities
    target_field: "summary"
    labels: [PERSON, ORGANIZATION, LOCATION]

يتم تمييز التوصيفات المخرجة باسم الحقل، مما يوضح أي حقل نصي ينتمي إليه كل نطاق.

اقرأ توثيق توصيف النطاقات المحدّث →

ربط النطاقات

يتيح نوع التوصيف الجديد span_link استخراج العلاقات عبر إنشاء علاقات مُصنّفة بين النطاقات المُوصّفة. يفتح هذا مهام مثل بناء الرسوم المعرفية وحل المراجع المشتركة وتحليل الخطاب.

yaml

annotation_schemes:
  - annotation_type: span
    name: entities
    labels:
      - name: "PERSON"
        color: "#3b82f6"
      - name: "ORGANIZATION"
        color: "#22c55e"
 
  - annotation_type: span_link
    name: relations
    span_schema: entities
    link_types:
      - name: "WORKS_FOR"
        directed: true
        allowed_source_labels: ["PERSON"]
        allowed_target_labels: ["ORGANIZATION"]
        color: "#dc2626"
      - name: "COLLABORATES_WITH"
        directed: false
        allowed_source_labels: ["PERSON"]
        allowed_target_labels: ["PERSON"]
        color: "#06b6d4"

تشمل القدرات الرئيسية الروابط الموجّهة وغير الموجّهة، والعلاقات المتعددة (روابط بين أكثر من نطاقين)، وعرض الأقواس البصري فوق النص، وقيود التسميات التي تحدد أنواع الكيانات المسموح لها بالمشاركة في كل نوع علاقة.

اقرأ التوثيق الكامل لربط النطاقات →

دعم الذكاء الاصطناعي البصري

يقدم Potato 2.1 أربع نقاط نهاية رؤية جديدة تجلب المساعدة المدعومة بالذكاء الاصطناعي لمهام توصيف الصور والفيديو. يُعدّ هذا توسعاً كبيراً لقدرات الذكاء الاصطناعي في Potato ما بعد النص.

أربع نقاط نهاية رؤية

YOLO -- الأفضل للكشف السريع والدقيق عن الأجسام باستخدام الاستدلال المحلي. يدعم متغيرات YOLOv8 وYOLO-World للكشف بمفردات مفتوحة.

yaml

ai_support:
  enabled: true
  endpoint_type: "yolo"
  ai_config:
    model: "yolov8m.pt"
    confidence_threshold: 0.5
    iou_threshold: 0.45

Ollama Vision -- شغّل نماذج الرؤية واللغة محلياً مع Ollama. يدعم LLaVA وLlama 3.2 Vision وQwen2.5-VL وBakLLaVA وMoondream.

yaml

ai_support:
  enabled: true
  endpoint_type: "ollama_vision"
  ai_config:
    model: "llava:latest"
    base_url: "http://localhost:11434"

OpenAI Vision -- تحليل رؤية سحابي باستخدام GPT-4o مع مستويات تفصيل قابلة للإعداد.

yaml

ai_support:
  enabled: true
  endpoint_type: "openai_vision"
  ai_config:
    api_key: "${OPENAI_API_KEY}"
    model: "gpt-4o"
    detail: "auto"

Anthropic Vision -- Claude بقدرات رؤية لفهم الصور وتصنيفها.

yaml

ai_support:
  enabled: true
  endpoint_type: "anthropic_vision"
  ai_config:
    api_key: "${ANTHROPIC_API_KEY}"
    model: "claude-sonnet-4-20250514"

ميزات الذكاء الاصطناعي للصور

لمهام توصيف الصور، يوفر الذكاء الاصطناعي البصري أربعة أوضاع مساعدة:

الكشف -- يجد الأجسام المطابقة لتسمياتك المُعدّة ويرسم مربعات إحاطة مقترحة كتراكبات متقطعة
التوصيف المسبق (تلقائي) -- يكشف تلقائياً جميع الأجسام في الصورة وينشئ اقتراحات للمراجعة البشرية
التصنيف -- يصنّف منطقة محددة أو الصورة بأكملها مع درجة ثقة
التلميحات -- يقدم إرشادات دون الكشف عن المواقع الدقيقة، مفيد لتدريب المُوصِّفين

yaml

annotation_schemes:
  - annotation_type: image_annotation
    name: object_detection
    tools: [bbox, polygon]
    labels:
      - name: "person"
        color: "#FF6B6B"
      - name: "car"
        color: "#4ECDC4"
    ai_support:
      enabled: true
      features:
        detection: true
        pre_annotate: true
        classification: false
        hint: true

ميزات الذكاء الاصطناعي للفيديو

لمهام الفيديو، يضيف الذكاء الاصطناعي البصري كشف المشاهد (تحديد حدود المشاهد واقتراح مقاطع زمنية)، وكشف الإطارات المفتاحية (إيجاد اللحظات المهمة)، وتتبع الأجسام (اقتراح المواقع عبر الإطارات).

سير عمل القبول/الرفض

تظهر اقتراحات الذكاء الاصطناعي كتراكبات متقطعة يمكن للمُوصِّفين قبولها (نقر مزدوج)، أو رفضها (نقر يمين)، أو قبول الكل، أو مسح الكل -- مع إبقاء البشر في الحلقة مع تسريع التوصيف.

نقاط نهاية بصرية ونصية منفصلة

يمكنك إعداد نقاط نهاية ذكاء اصطناعي مختلفة للمهام النصية والبصرية، باستخدام أفضل نموذج لكل نوع محتوى:

yaml

ai_support:
  enabled: true
  endpoint_type: "ollama"          # Text annotations
  visual_endpoint_type: "yolo"     # Image/video annotations
  ai_config:
    model: "llama3.2"
  visual_ai_config:
    model: "yolov8m.pt"
    confidence_threshold: 0.5

اقرأ التوثيق الكامل لدعم الذكاء الاصطناعي البصري →

تخصيص التخطيط

يضيف Potato 2.1 دعماً لتخطيطات بصرية مخصصة متطورة. ينشئ Potato ملف layouts/task_layout.html قابل للتحرير بشكل افتراضي، ويمكنك تقديم قالب HTML مخصص بالكامل مع تخطيطات CSS grid وخيارات ملونة وتنسيق أقسام.

yaml

task_layout: layouts/custom_task_layout.html

يتضمن ثلاثة نماذج تخطيط في project-hub/layout-examples/:

إشراف المحتوى -- بانر تحذير، شبكة من عمودين، ألوان حسب الخطورة
أسئلة وأجوبة الحوار -- بيانات وصفية للحالة، تقييمات Likert دائرية، تقييمات مُجمّعة
مراجعة طبية -- تنسيق طبي احترافي، تقارير مهيكلة

تعمل التخطيطات المخصصة إلى جانب نظام instance_display الجديد -- يُعرض محتوى العرض فوق نماذج التوصيف المخصصة.

اقرأ التوثيق الكامل لتخصيص التخطيط →

تحسينات أخرى

مبررات التسميات

تنضم قدرة ذكاء اصطناعي رابعة إلى التلميحات وتمييز الكلمات المفتاحية واقتراحات التسميات. تولّد المبررات تفسيرات متوازنة لسبب انطباق كل تسمية، مما يساعد المُوصِّفين على فهم الاستدلال وراء التصنيفات المختلفة.

yaml

ai_support:
  features:
    rationales:
      enabled: true

إصلاحات أخطاء واختبارات

أكثر من 50 اختباراً جديداً لتحسين الموثوقية
تحسينات التصميم المتجاوب عبر أنواع التوصيف
تنظيم محسّن لمركز المشاريع مع نماذج التخطيط

الترقية إلى الإصدار 2.1

bash

pip install --upgrade potato-annotation

تعمل إعدادات الإصدار 2.0 الحالية بدون تغييرات -- جميع الميزات الجديدة اختيارية من خلال كتل إعداد إضافية مثل instance_display ومخططات span_link ونقاط نهاية الذكاء الاصطناعي البصري.

البدء

ما الجديد -- نظرة عامة كاملة على ميزات الإصدار 2.1
عرض النماذج -- عرض المحتوى متعدد الوسائط
دعم الذكاء الاصطناعي البصري -- الذكاء الاصطناعي لتوصيف الصور والفيديو
ربط النطاقات -- توصيف علاقات الكيانات
تخصيص التخطيط -- قوالب HTML مخصصة

هل لديك أسئلة أو ملاحظات؟ انضم إلى Discord أو افتح مشكلة على GitHub.