دعم الذكاء الاصطناعي المرئي
مساعدة مدعومة بالذكاء الاصطناعي للتعليق التوضيحي على الصور والفيديو باستخدام نماذج الرؤية.
دعم الذكاء الاصطناعي المرئي
جديد في الإصدار v2.1.0
يوفر Potato مساعدة مدعومة بالذكاء الاصطناعي لمهام التعليق التوضيحي على الصور والفيديو باستخدام نماذج رؤية متنوعة بما في ذلك YOLO لاكتشاف الأجسام ونماذج اللغة المرئية (VLLMs) مثل GPT-4o وClaude ونماذج رؤية Ollama.
نظرة عامة
يتيح دعم الذكاء الاصطناعي المرئي:
- اكتشاف الأجسام: اكتشاف الأجسام وتحديد مواقعها تلقائياً في الصور باستخدام YOLO أو VLLMs
- التعليق التوضيحي المسبق: اكتشاف جميع الأجسام تلقائياً للمراجعة البشرية
- التصنيف: تصنيف الصور أو المناطق داخل الصور
- التلميحات: الحصول على إرشادات دون الكشف عن المواقع الدقيقة
- اكتشاف المشاهد: تحديد الأجزاء الزمنية في مقاطع الفيديو
- اكتشاف الإطارات الرئيسية: العثور على اللحظات المهمة في مقاطع الفيديو
- تتبع الأجسام: تتبع الأجسام عبر إطارات الفيديو
نقاط النهاية المدعومة
نقطة نهاية YOLO
الأفضل لاكتشاف الأجسام السريع والدقيق باستخدام الاستدلال المحلي.
ai_support:
enabled: true
endpoint_type: "yolo"
ai_config:
model: "yolov8m.pt" # or yolov8n, yolov8l, yolov8x, yolo-world
confidence_threshold: 0.5
iou_threshold: 0.45النماذج المدعومة:
- YOLOv8 (متغيرات n/s/m/l/x)
- YOLO-World (اكتشاف بمفردات مفتوحة)
- نماذج مدرّبة مخصصة
نقطة نهاية Ollama Vision
للاستدلال المحلي بنماذج اللغة المرئية.
ai_support:
enabled: true
endpoint_type: "ollama_vision"
ai_config:
model: "llava:latest" # or llava-llama3, bakllava, llama3.2-vision, qwen2.5-vl
base_url: "http://localhost:11434"
max_tokens: 500
temperature: 0.1النماذج المدعومة:
- LLaVA (7B, 13B, 34B)
- LLaVA-LLaMA3
- BakLLaVA
- Llama 3.2 Vision (11B, 90B)
- Qwen2.5-VL
- Moondream
نقطة نهاية OpenAI Vision
للتحليل المرئي السحابي باستخدام GPT-4o.
ai_support:
enabled: true
endpoint_type: "openai_vision"
ai_config:
api_key: "${OPENAI_API_KEY}"
model: "gpt-4o" # or gpt-4o-mini
max_tokens: 1000
detail: "auto" # low, high, or autoنقطة نهاية Anthropic Vision
لاستخدام Claude مع إمكانيات الرؤية.
ai_support:
enabled: true
endpoint_type: "anthropic_vision"
ai_config:
api_key: "${ANTHROPIC_API_KEY}"
model: "claude-sonnet-4-20250514"
max_tokens: 1024قدرات نقاط النهاية
لكل نقطة نهاية نقاط قوة مختلفة:
| نقطة النهاية | توليد النصوص | الرؤية | مخرجات Bbox | الكلمات المفتاحية | التبرير |
|---|---|---|---|---|---|
ollama_vision | نعم | نعم | لا | لا | نعم |
openai_vision | نعم | نعم | لا | لا | نعم |
anthropic_vision | نعم | نعم | لا | لا | نعم |
yolo | لا | نعم | نعم | لا | لا |
أفضل الممارسات:
- لـاكتشاف الأجسام الدقيق، استخدم نقطة نهاية
yolo - لـتصنيف الصور مع التفسيرات، استخدم VLLM مثل
ollama_visionمع Qwen-VL أو LLaVA - لـسير العمل المجمّع، هيّئ كلاً من نقطة نهاية نصية ونقطة نهاية مرئية
التعليق التوضيحي على الصور بالذكاء الاصطناعي
هيّئ التعليق التوضيحي على الصور بمساعدة الذكاء الاصطناعي مع ميزات الاكتشاف والتعليق المسبق والتصنيف والتلميحات:
annotation_schemes:
- annotation_type: image_annotation
name: object_detection
description: "Detect and label objects in the image"
tools:
- bbox
- polygon
labels:
- name: "person"
color: "#FF6B6B"
- name: "car"
color: "#4ECDC4"
- name: "dog"
color: "#45B7D1"
ai_support:
enabled: true
features:
detection: true # "Detect" button - find objects
pre_annotate: true # "Auto" button - detect all
classification: false # "Classify" button - classify region
hint: true # "Hint" button - get guidance
ai_support:
enabled: true
endpoint_type: "yolo"
ai_config:
model: "yolov8m.pt"
confidence_threshold: 0.5التعليق التوضيحي على الفيديو بالذكاء الاصطناعي
annotation_schemes:
- annotation_type: video_annotation
name: scene_segmentation
description: "Segment video into scenes"
mode: segment
labels:
- name: "intro"
color: "#4ECDC4"
- name: "action"
color: "#FF6B6B"
- name: "outro"
color: "#45B7D1"
ai_support:
enabled: true
features:
scene_detection: true # Detect scene boundaries
keyframe_detection: false
tracking: false
pre_annotate: true # Auto-segment entire video
hint: true
ai_support:
enabled: true
endpoint_type: "ollama_vision"
ai_config:
model: "llava:latest"
max_frames: 10 # Frames to sample for video analysisفصل نقاط النهاية المرئية والنصية
يمكنك تهيئة نقطة نهاية منفصلة للمهام المرئية، باستخدام أفضل نموذج لكل نوع محتوى:
ai_support:
enabled: true
endpoint_type: "openai" # For text annotations
ai_config:
api_key: "${OPENAI_API_KEY}"
model: "gpt-4o-mini"
# Separate visual endpoint
visual_endpoint_type: "yolo"
visual_ai_config:
model: "yolov8m.pt"
confidence_threshold: 0.5أو باستخدام نموذج لغة مرئية بجانب نموذج نصي:
ai_support:
enabled: true
endpoint_type: "ollama" # Main endpoint for text
visual_endpoint_type: "ollama_vision" # Visual endpoint for images
ai_config:
model: "llama3.2"
include:
all: true
visual_ai_config:
model: "qwen2.5-vl:7b"ميزات الذكاء الاصطناعي
الاكتشاف
يعثر على الأجسام المطابقة للتسميات المهيّأة ويرسم مربعات إحاطة مقترحة. تظهر الاقتراحات كطبقات متقطعة يمكن قبولها أو رفضها.
التعليق التوضيحي المسبق (تلقائي)
يكتشف جميع الأجسام في الصورة/الفيديو تلقائياً وينشئ اقتراحات للمراجعة البشرية. مفيد لتسريع التعليق التوضيحي على مجموعات البيانات الكبيرة.
التصنيف
يصنّف منطقة محددة أو الصورة بالكامل. يعيد تسمية مقترحة مع درجة الثقة والتبرير.
التلميحات
يقدم إرشادات دون الكشف عن الإجابات الدقيقة. مناسب لتدريب المعلّقين أو عندما تريد الحكم البشري مع مساعدة الذكاء الاصطناعي.
اكتشاف المشاهد (فيديو)
يحلل إطارات الفيديو لتحديد حدود المشاهد ويقترح أجزاء زمنية مع تسميات.
اكتشاف الإطارات الرئيسية (فيديو)
يحدد اللحظات المهمة في الفيديو التي تصلح كنقاط تعليق توضيحي جيدة.
تتبع الأجسام (فيديو)
يقترح مواقع الأجسام عبر الإطارات للتعليق التوضيحي المتسق للتتبع.
استخدام اقتراحات الذكاء الاصطناعي
- انقر على زر مساعدة الذكاء الاصطناعي (اكتشاف، تلقائي، تلميح، إلخ.)
- انتظر ظهور الاقتراحات كطبقات متقطعة
- قبول اقتراح: انقر نقراً مزدوجاً على طبقة الاقتراح
- رفض اقتراح: انقر بزر الماوس الأيمن على طبقة الاقتراح
- قبول الكل: انقر على "Accept All" في شريط الأدوات
- مسح الكل: انقر على "Clear" لإزالة جميع الاقتراحات
تنسيق استجابة واجهة برمجة الاكتشاف
{
"detections": [
{
"label": "person",
"bbox": {"x": 0.1, "y": 0.2, "width": 0.3, "height": 0.5},
"confidence": 0.95
}
]
}للتلميحات:
{
"hint": "Look for objects in the lower right corner",
"suggestive_choice": "Focus on overlapping regions"
}لأجزاء الفيديو:
{
"segments": [
{
"start_time": 0.0,
"end_time": 5.5,
"suggested_label": "intro",
"confidence": 0.85
}
]
}المتطلبات
لنقطة نهاية YOLO
pip install ultralytics opencv-pythonلنقطة نهاية Ollama Vision
- ثبّت Ollama من ollama.ai
- حمّل نموذج رؤية:
ollama pull llava - شغّل خادم Ollama (يعمل على
http://localhost:11434افتراضياً)
لنقاط نهاية OpenAI/Anthropic Vision
- اضبط مفتاح API في البيئة أو التهيئة
- تأكد من الوصول إلى النماذج القادرة على الرؤية
استكشاف الأخطاء وإصلاحها
"No visual AI endpoint configured"
تأكد من:
- تعيين
ai_support.enabled: true - تعيين
endpoint_typeصالح يدعم الرؤية (yolo،ollama_vision،openai_vision،anthropic_vision) - تثبيت التبعيات المطلوبة لنقطة النهاية المختارة
YOLO لا يكتشف الأجسام المتوقعة
- جرّب خفض
confidence_threshold - تأكد من أن تسمياتك تتطابق مع أسماء فئات YOLO (أو استخدم YOLO-World للمفردات المخصصة)
- تحقق من وجود ملف النموذج وصلاحيته
أخطاء Ollama Vision
- تحقق من تشغيل Ollama:
curl http://localhost:11434/api/tags - تأكد من تحميل نموذج رؤية:
ollama list - تحقق من أن النموذج يدعم الرؤية (llava، bakllava، llama3.2-vision، إلخ.)
قراءات إضافية
- دعم الذكاء الاصطناعي - المساعدة النصية بالذكاء الاصطناعي (تلميحات، كلمات مفتاحية، تبريرات)
- التعليق التوضيحي على الصور - أدوات وتهيئة التعليق التوضيحي على الصور
- عرض المثيلات - تهيئة عرض المحتوى
للاطلاع على تفاصيل التنفيذ، راجع الوثائق المصدرية.