Visual AI Support
Vision models का उपयोग करके image और video annotation के लिए AI-powered assistance।
Visual AI Support
v2.1.0 में नया
Potato YOLO object detection और vision-language models (VLLMs) जैसे GPT-4o, Claude, और Ollama vision models सहित विभिन्न vision models का उपयोग करके image और video annotation tasks के लिए AI-powered assistance प्रदान करता है।
अवलोकन
Visual AI support सक्षम करता है:
- Object Detection: YOLO या VLLMs का उपयोग करके images में automatically objects detect और locate करें
- Pre-annotation: Human review के लिए सभी objects auto-detect करें
- Classification: Images या images के भीतर regions classify करें
- Hints: Exact locations reveal किए बिना guidance प्राप्त करें
- Scene Detection: Videos में temporal segments identify करें
- Keyframe Detection: Videos में significant moments खोजें
- Object Tracking: Video frames में objects track करें
समर्थित Endpoints
YOLO Endpoint
Local inference का उपयोग करके fast, accurate object detection के लिए सर्वश्रेष्ठ।
ai_support:
enabled: true
endpoint_type: "yolo"
ai_config:
model: "yolov8m.pt" # or yolov8n, yolov8l, yolov8x, yolo-world
confidence_threshold: 0.5
iou_threshold: 0.45समर्थित models:
- YOLOv8 (n/s/m/l/x variants)
- YOLO-World (open-vocabulary detection)
- Custom trained models
Ollama Vision Endpoint
Local vision-language model inference के लिए।
ai_support:
enabled: true
endpoint_type: "ollama_vision"
ai_config:
model: "llava:latest" # or llava-llama3, bakllava, llama3.2-vision, qwen2.5-vl
base_url: "http://localhost:11434"
max_tokens: 500
temperature: 0.1समर्थित models:
- LLaVA (7B, 13B, 34B)
- LLaVA-LLaMA3
- BakLLaVA
- Llama 3.2 Vision (11B, 90B)
- Qwen2.5-VL
- Moondream
OpenAI Vision Endpoint
GPT-4o का उपयोग करके cloud-based vision analysis के लिए।
ai_support:
enabled: true
endpoint_type: "openai_vision"
ai_config:
api_key: "${OPENAI_API_KEY}"
model: "gpt-4o" # or gpt-4o-mini
max_tokens: 1000
detail: "auto" # low, high, or autoAnthropic Vision Endpoint
Vision capabilities के साथ Claude के लिए।
ai_support:
enabled: true
endpoint_type: "anthropic_vision"
ai_config:
api_key: "${ANTHROPIC_API_KEY}"
model: "claude-sonnet-4-20250514"
max_tokens: 1024Endpoint Capabilities
प्रत्येक endpoint की अलग-अलग strengths हैं:
| Endpoint | Text Gen | Vision | Bbox Output | Keyword | Rationale |
|---|---|---|---|---|---|
ollama_vision | हाँ | हाँ | नहीं | नहीं | हाँ |
openai_vision | हाँ | हाँ | नहीं | नहीं | हाँ |
anthropic_vision | हाँ | हाँ | नहीं | नहीं | हाँ |
yolo | नहीं | हाँ | हाँ | नहीं | नहीं |
सर्वोत्तम प्रथाएँ:
- Precise object detection के लिए,
yoloendpoint का उपयोग करें - Explanations के साथ image classification के लिए, Qwen-VL या LLaVA के साथ
ollama_visionजैसे VLLM का उपयोग करें - Combined workflows के लिए, एक text endpoint और एक visual endpoint दोनों configure करें
AI के साथ Image Annotation
Detection, pre-annotation, classification, और hint features के साथ AI-assisted image annotation configure करें:
annotation_schemes:
- annotation_type: image_annotation
name: object_detection
description: "Detect and label objects in the image"
tools:
- bbox
- polygon
labels:
- name: "person"
color: "#FF6B6B"
- name: "car"
color: "#4ECDC4"
- name: "dog"
color: "#45B7D1"
ai_support:
enabled: true
features:
detection: true # "Detect" button - find objects
pre_annotate: true # "Auto" button - detect all
classification: false # "Classify" button - classify region
hint: true # "Hint" button - get guidance
ai_support:
enabled: true
endpoint_type: "yolo"
ai_config:
model: "yolov8m.pt"
confidence_threshold: 0.5AI के साथ Video Annotation
annotation_schemes:
- annotation_type: video_annotation
name: scene_segmentation
description: "Segment video into scenes"
mode: segment
labels:
- name: "intro"
color: "#4ECDC4"
- name: "action"
color: "#FF6B6B"
- name: "outro"
color: "#45B7D1"
ai_support:
enabled: true
features:
scene_detection: true # Detect scene boundaries
keyframe_detection: false
tracking: false
pre_annotate: true # Auto-segment entire video
hint: true
ai_support:
enabled: true
endpoint_type: "ollama_vision"
ai_config:
model: "llava:latest"
max_frames: 10 # Frames to sample for video analysisअलग Visual और Text Endpoints
आप visual tasks के लिए एक अलग endpoint configure कर सकते हैं, प्रत्येक content type के लिए सबसे अच्छे model का उपयोग करते हुए:
ai_support:
enabled: true
endpoint_type: "openai" # For text annotations
ai_config:
api_key: "${OPENAI_API_KEY}"
model: "gpt-4o-mini"
# Separate visual endpoint
visual_endpoint_type: "yolo"
visual_ai_config:
model: "yolov8m.pt"
confidence_threshold: 0.5या एक text model के साथ vision-language model का उपयोग करते हुए:
ai_support:
enabled: true
endpoint_type: "ollama" # Main endpoint for text
visual_endpoint_type: "ollama_vision" # Visual endpoint for images
ai_config:
model: "llama3.2"
include:
all: true
visual_ai_config:
model: "qwen2.5-vl:7b"AI Features
Detection
Configured labels से matching objects खोजता है और suggestion bounding boxes draw करता है। Suggestions dashed overlays के रूप में दिखाई देती हैं जिन्हें accept या reject किया जा सकता है।
Pre-annotation (Auto)
Image/video में सभी objects को automatically detect करता है और human review के लिए suggestions बनाता है। बड़े datasets के annotation को तेज़ करने के लिए उपयोगी।
Classification
Selected region या पूरी image classify करता है। Confidence score और reasoning के साथ suggested label लौटाता है।
Hints
Exact answers reveal किए बिना guidance प्रदान करता है। Annotators को train करते समय या जब आप AI assistance के साथ human judgment चाहते हों तब अच्छा।
Scene Detection (Video)
Scene boundaries identify करने के लिए video frames का विश्लेषण करता है और labels के साथ temporal segments suggest करता है।
Keyframe Detection (Video)
Video में significant moments identify करता है जो annotation points के रूप में अच्छे होंगे।
Object Tracking (Video)
Consistent tracking annotation के लिए frames में object positions suggest करता है।
AI Suggestions का उपयोग करना
- AI assistance button click करें (Detect, Auto, Hint, आदि)
- Dashed overlays के रूप में suggestions दिखाई देने तक प्रतीक्षा करें
- Suggestion accept करें: Suggestion overlay पर Double-click करें
- Suggestion reject करें: Suggestion overlay पर Right-click करें
- सभी accept करें: Toolbar में "Accept All" click करें
- सभी clear करें: सभी suggestions हटाने के लिए "Clear" click करें
Detection API Response Format
{
"detections": [
{
"label": "person",
"bbox": {"x": 0.1, "y": 0.2, "width": 0.3, "height": 0.5},
"confidence": 0.95
}
]
}Hints के लिए:
{
"hint": "Look for objects in the lower right corner",
"suggestive_choice": "Focus on overlapping regions"
}Video segments के लिए:
{
"segments": [
{
"start_time": 0.0,
"end_time": 5.5,
"suggested_label": "intro",
"confidence": 0.85
}
]
}आवश्यकताएँ
YOLO endpoint के लिए
pip install ultralytics opencv-pythonOllama Vision के लिए
- ollama.ai से Ollama install करें
- Vision model pull करें:
ollama pull llava - Ollama server शुरू करें (default पर
http://localhost:11434चलता है)
OpenAI/Anthropic Vision के लिए
- Environment या config में API key सेट करें
- सुनिश्चित करें कि आपके पास vision-capable models तक access है
समस्या निवारण
"No visual AI endpoint configured"
सुनिश्चित करें कि:
ai_support.enabled: trueसेट है- एक valid
endpoint_typeसेट है जो vision का समर्थन करता है (yolo,ollama_vision,openai_vision,anthropic_vision) - अपने chosen endpoint के लिए required dependencies install हैं
YOLO expected objects detect नहीं कर रहा
confidence_thresholdकम करने का प्रयास करें- सुनिश्चित करें कि आपके labels YOLO के class names से match करते हैं (या custom vocabularies के लिए YOLO-World का उपयोग करें)
- जांचें कि model file exists है और valid है
Ollama Vision errors
- Verify करें कि Ollama चल रहा है:
curl http://localhost:11434/api/tags - सुनिश्चित करें कि आपने एक vision model pull किया है:
ollama list - जांचें कि model vision का समर्थन करता है (llava, bakllava, llama3.2-vision, आदि)
आगे पढ़ें
- AI Support - Text-based AI assistance (hints, keywords, rationales)
- Image Annotation - Image annotation tools और कॉन्फ़िगरेशन
- Instance Display - Content display configure करें
कार्यान्वयन विवरण के लिए, source documentation देखें।