Skip to content
Cette page n'est pas encore disponible dans votre langue. La version anglaise est affichée.

Visual AI Support

Vision models का उपयोग करके image और video annotation के लिए AI-powered assistance।

Visual AI Support

v2.1.0 में नया

Potato YOLO object detection और vision-language models (VLLMs) जैसे GPT-4o, Claude, और Ollama vision models सहित विभिन्न vision models का उपयोग करके image और video annotation tasks के लिए AI-powered assistance प्रदान करता है।

अवलोकन

Visual AI support सक्षम करता है:

  • Object Detection: YOLO या VLLMs का उपयोग करके images में automatically objects detect और locate करें
  • Pre-annotation: Human review के लिए सभी objects auto-detect करें
  • Classification: Images या images के भीतर regions classify करें
  • Hints: Exact locations reveal किए बिना guidance प्राप्त करें
  • Scene Detection: Videos में temporal segments identify करें
  • Keyframe Detection: Videos में significant moments खोजें
  • Object Tracking: Video frames में objects track करें

समर्थित Endpoints

YOLO Endpoint

Local inference का उपयोग करके fast, accurate object detection के लिए सर्वश्रेष्ठ।

yaml
ai_support:
  enabled: true
  endpoint_type: "yolo"
  ai_config:
    model: "yolov8m.pt"  # or yolov8n, yolov8l, yolov8x, yolo-world
    confidence_threshold: 0.5
    iou_threshold: 0.45

समर्थित models:

  • YOLOv8 (n/s/m/l/x variants)
  • YOLO-World (open-vocabulary detection)
  • Custom trained models

Ollama Vision Endpoint

Local vision-language model inference के लिए।

yaml
ai_support:
  enabled: true
  endpoint_type: "ollama_vision"
  ai_config:
    model: "llava:latest"  # or llava-llama3, bakllava, llama3.2-vision, qwen2.5-vl
    base_url: "http://localhost:11434"
    max_tokens: 500
    temperature: 0.1

समर्थित models:

  • LLaVA (7B, 13B, 34B)
  • LLaVA-LLaMA3
  • BakLLaVA
  • Llama 3.2 Vision (11B, 90B)
  • Qwen2.5-VL
  • Moondream

OpenAI Vision Endpoint

GPT-4o का उपयोग करके cloud-based vision analysis के लिए।

yaml
ai_support:
  enabled: true
  endpoint_type: "openai_vision"
  ai_config:
    api_key: "${OPENAI_API_KEY}"
    model: "gpt-4o"  # or gpt-4o-mini
    max_tokens: 1000
    detail: "auto"  # low, high, or auto

Anthropic Vision Endpoint

Vision capabilities के साथ Claude के लिए।

yaml
ai_support:
  enabled: true
  endpoint_type: "anthropic_vision"
  ai_config:
    api_key: "${ANTHROPIC_API_KEY}"
    model: "claude-sonnet-4-20250514"
    max_tokens: 1024

Endpoint Capabilities

प्रत्येक endpoint की अलग-अलग strengths हैं:

EndpointText GenVisionBbox OutputKeywordRationale
ollama_visionहाँहाँनहींनहींहाँ
openai_visionहाँहाँनहींनहींहाँ
anthropic_visionहाँहाँनहींनहींहाँ
yoloनहींहाँहाँनहींनहीं

सर्वोत्तम प्रथाएँ:

  • Precise object detection के लिए, yolo endpoint का उपयोग करें
  • Explanations के साथ image classification के लिए, Qwen-VL या LLaVA के साथ ollama_vision जैसे VLLM का उपयोग करें
  • Combined workflows के लिए, एक text endpoint और एक visual endpoint दोनों configure करें

AI के साथ Image Annotation

Detection, pre-annotation, classification, और hint features के साथ AI-assisted image annotation configure करें:

yaml
annotation_schemes:
  - annotation_type: image_annotation
    name: object_detection
    description: "Detect and label objects in the image"
    tools:
      - bbox
      - polygon
    labels:
      - name: "person"
        color: "#FF6B6B"
      - name: "car"
        color: "#4ECDC4"
      - name: "dog"
        color: "#45B7D1"
 
    ai_support:
      enabled: true
      features:
        detection: true      # "Detect" button - find objects
        pre_annotate: true   # "Auto" button - detect all
        classification: false # "Classify" button - classify region
        hint: true           # "Hint" button - get guidance
 
ai_support:
  enabled: true
  endpoint_type: "yolo"
  ai_config:
    model: "yolov8m.pt"
    confidence_threshold: 0.5

AI के साथ Video Annotation

yaml
annotation_schemes:
  - annotation_type: video_annotation
    name: scene_segmentation
    description: "Segment video into scenes"
    mode: segment
    labels:
      - name: "intro"
        color: "#4ECDC4"
      - name: "action"
        color: "#FF6B6B"
      - name: "outro"
        color: "#45B7D1"
 
    ai_support:
      enabled: true
      features:
        scene_detection: true     # Detect scene boundaries
        keyframe_detection: false
        tracking: false
        pre_annotate: true        # Auto-segment entire video
        hint: true
 
ai_support:
  enabled: true
  endpoint_type: "ollama_vision"
  ai_config:
    model: "llava:latest"
    max_frames: 10  # Frames to sample for video analysis

अलग Visual और Text Endpoints

आप visual tasks के लिए एक अलग endpoint configure कर सकते हैं, प्रत्येक content type के लिए सबसे अच्छे model का उपयोग करते हुए:

yaml
ai_support:
  enabled: true
  endpoint_type: "openai"  # For text annotations
  ai_config:
    api_key: "${OPENAI_API_KEY}"
    model: "gpt-4o-mini"
 
  # Separate visual endpoint
  visual_endpoint_type: "yolo"
  visual_ai_config:
    model: "yolov8m.pt"
    confidence_threshold: 0.5

या एक text model के साथ vision-language model का उपयोग करते हुए:

yaml
ai_support:
  enabled: true
  endpoint_type: "ollama"  # Main endpoint for text
  visual_endpoint_type: "ollama_vision"  # Visual endpoint for images
  ai_config:
    model: "llama3.2"
    include:
      all: true
  visual_ai_config:
    model: "qwen2.5-vl:7b"

AI Features

Detection

Configured labels से matching objects खोजता है और suggestion bounding boxes draw करता है। Suggestions dashed overlays के रूप में दिखाई देती हैं जिन्हें accept या reject किया जा सकता है।

Pre-annotation (Auto)

Image/video में सभी objects को automatically detect करता है और human review के लिए suggestions बनाता है। बड़े datasets के annotation को तेज़ करने के लिए उपयोगी।

Classification

Selected region या पूरी image classify करता है। Confidence score और reasoning के साथ suggested label लौटाता है।

Hints

Exact answers reveal किए बिना guidance प्रदान करता है। Annotators को train करते समय या जब आप AI assistance के साथ human judgment चाहते हों तब अच्छा।

Scene Detection (Video)

Scene boundaries identify करने के लिए video frames का विश्लेषण करता है और labels के साथ temporal segments suggest करता है।

Keyframe Detection (Video)

Video में significant moments identify करता है जो annotation points के रूप में अच्छे होंगे।

Object Tracking (Video)

Consistent tracking annotation के लिए frames में object positions suggest करता है।

AI Suggestions का उपयोग करना

  1. AI assistance button click करें (Detect, Auto, Hint, आदि)
  2. Dashed overlays के रूप में suggestions दिखाई देने तक प्रतीक्षा करें
  3. Suggestion accept करें: Suggestion overlay पर Double-click करें
  4. Suggestion reject करें: Suggestion overlay पर Right-click करें
  5. सभी accept करें: Toolbar में "Accept All" click करें
  6. सभी clear करें: सभी suggestions हटाने के लिए "Clear" click करें

Detection API Response Format

json
{
  "detections": [
    {
      "label": "person",
      "bbox": {"x": 0.1, "y": 0.2, "width": 0.3, "height": 0.5},
      "confidence": 0.95
    }
  ]
}

Hints के लिए:

json
{
  "hint": "Look for objects in the lower right corner",
  "suggestive_choice": "Focus on overlapping regions"
}

Video segments के लिए:

json
{
  "segments": [
    {
      "start_time": 0.0,
      "end_time": 5.5,
      "suggested_label": "intro",
      "confidence": 0.85
    }
  ]
}

आवश्यकताएँ

YOLO endpoint के लिए

bash
pip install ultralytics opencv-python

Ollama Vision के लिए

  1. ollama.ai से Ollama install करें
  2. Vision model pull करें: ollama pull llava
  3. Ollama server शुरू करें (default पर http://localhost:11434 चलता है)

OpenAI/Anthropic Vision के लिए

  • Environment या config में API key सेट करें
  • सुनिश्चित करें कि आपके पास vision-capable models तक access है

समस्या निवारण

"No visual AI endpoint configured"

सुनिश्चित करें कि:

  1. ai_support.enabled: true सेट है
  2. एक valid endpoint_type सेट है जो vision का समर्थन करता है (yolo, ollama_vision, openai_vision, anthropic_vision)
  3. अपने chosen endpoint के लिए required dependencies install हैं

YOLO expected objects detect नहीं कर रहा

  • confidence_threshold कम करने का प्रयास करें
  • सुनिश्चित करें कि आपके labels YOLO के class names से match करते हैं (या custom vocabularies के लिए YOLO-World का उपयोग करें)
  • जांचें कि model file exists है और valid है

Ollama Vision errors

  • Verify करें कि Ollama चल रहा है: curl http://localhost:11434/api/tags
  • सुनिश्चित करें कि आपने एक vision model pull किया है: ollama list
  • जांचें कि model vision का समर्थन करता है (llava, bakllava, llama3.2-vision, आदि)

आगे पढ़ें

  • AI Support - Text-based AI assistance (hints, keywords, rationales)
  • Image Annotation - Image annotation tools और कॉन्फ़िगरेशन
  • Instance Display - Content display configure करें

कार्यान्वयन विवरण के लिए, source documentation देखें।