Skip to content
Tutorials4 min read

Annotation de suivi multi-objets

Un aperçu des concepts d'annotation de suivi multi-objets et de la manière dont les capacités d'annotation vidéo de Potato peuvent supporter des flux de travail de suivi basiques.

Potato Team·

Annotation de suivi multi-objets

L'annotation de suivi multi-objets (MOT) crée des données d'entraînement pour la surveillance, la conduite autonome et l'analyse sportive. Ce tutoriel aborde les concepts d'annotation MOT et comment les fonctionnalités actuelles d'annotation vidéo de Potato peuvent supporter des flux de travail de suivi basiques.

Défis de l'annotation MOT

  • Maintenir des identifiants d'objets cohérents entre les images
  • Gérer les occlusions et les réapparitions
  • Suivre les objets dans des scènes bondées
  • Gérer les changements et fusions d'identifiants

Support actuel de l'annotation vidéo

Potato supporte actuellement l'annotation vidéo basique via le type video_annotation. Bien que les fonctionnalités spécifiques au MOT comme la gestion automatique des identifiants, l'interpolation et la gestion des occlusions ne soient pas encore implémentées, vous pouvez configurer des flux de travail basiques d'étiquetage vidéo.

Configuration basique de l'annotation vidéo

yaml
annotation_task_name: "Video Object Labeling"
 
data_files:
  - data/videos.json
 
annotation_schemes:
  - annotation_type: video_annotation
    name: objects
    description: "Label objects in video frames"
    video_path: video
    labels:
      - name: person
      - name: vehicle
      - name: cyclist

Format des données d'exemple

Votre fichier data/videos.json doit contenir des entrées avec des chemins vidéo :

json
[
  {
    "id": "video_001",
    "video": "/path/to/video.mp4"
  },
  {
    "id": "video_002",
    "video": "/path/to/another_video.mp4"
  }
]

Flux de travail de suivi manuel

Sans fonctionnalités MOT dédiées, vous pouvez tout de même effectuer l'annotation de suivi manuellement :

Créer des pistes manuellement

  1. Naviguez vers l'image où un objet apparaît pour la première fois
  2. Utilisez l'interface d'annotation vidéo pour étiqueter l'objet
  3. Incluez un identifiant cohérent dans votre annotation (par ex. « person_1 »)
  4. Passez aux images suivantes et continuez l'étiquetage avec le même identifiant

Gestion des occlusions

Quand un objet devient occulté :

  1. Notez la dernière image où l'objet était visible
  2. Quand l'objet réapparaît, utilisez le même identifiant pour maintenir la continuité de la piste
  3. Documentez les périodes d'occlusion dans vos notes d'annotation

Fonctionnalités MOT proposées

Les fonctionnalités suivantes amélioreraient les capacités d'annotation MOT de Potato et sont envisagées pour un développement futur :

  • Attribution automatique d'identifiants : auto-incrémentation des identifiants pour les nouveaux objets
  • Interpolation de pistes : interpolation linéaire ou cubique entre les images clés
  • Gestion des occlusions : niveaux de visibilité (visible, partiel, important, non_visible)
  • Visualisation des trajectoires : afficher les chemins des objets entre les images
  • Panneau de gestion des pistes : fusionner, diviser et gérer les identifiants de pistes
  • Attributs par image : propriétés qui changent d'image en image

Si vous êtes intéressé par ces fonctionnalités, n'hésitez pas à contacter l'équipe de développement de Potato ou à contribuer au projet.

Conseils pour l'annotation MOT manuelle

  1. Travaillez par segments courts : 100 à 200 images à la fois
  2. Nommage cohérent : utilisez un schéma d'identifiants clair (par ex. « person_001 », « vehicle_023 »)
  3. Documentez votre processus : gardez des notes sur les occlusions et les décisions de pistes
  4. Passes de révision : regardez en avant puis en arrière pour détecter les erreurs
  5. Utilisez des outils externes : envisagez le pré-traitement avec des modèles de détection

Approches alternatives

Pour les projets nécessitant des capacités complètes d'annotation MOT :

  1. Flux de travail hybride : utilisez Potato pour l'étiquetage initial et des outils MOT spécialisés pour la gestion des pistes
  2. Pré-annotation : exécutez des détecteurs d'objets pour générer des boîtes englobantes initiales, puis affinez dans Potato
  3. Post-traitement : exportez les annotations Potato et appliquez des algorithmes de suivi en externe

Prochaines étapes


Pour la documentation actuelle sur l'annotation vidéo, voir /docs/features/image-annotation.