Skip to content
Tutorials4 min read

Anotação de Rastreamento de Múltiplos Objetos

Uma visão geral dos conceitos de anotação de rastreamento de múltiplos objetos e de como os recursos de anotação de vídeo do Potato podem dar suporte a fluxos de rastreamento básicos.

Potato Team

A anotação de rastreamento de múltiplos objetos (MOT) produz dados de treinamento para coisas como vigilância, carros autônomos e análise esportiva. Este post percorre as ideias centrais por trás da anotação MOT e até onde os recursos de vídeo atuais do Potato levam você em um fluxo de rastreamento básico.

Uma ressalva rápida antes de continuar: o Potato ainda não tem ferramentas dedicadas a MOT. Se você precisa de gerenciamento automático de IDs e interpolação hoje, provavelmente vai querer uma ferramenta especializada. Mas, para trabalhos menores, a abordagem manual abaixo funciona bem.

O que torna a anotação MOT difícil

  • Manter os IDs dos objetos consistentes de um quadro para o outro
  • Lidar com objetos que ficam ocultos e depois reaparecem
  • Acompanhar objetos por cenas cheias de gente
  • Resolver trocas e fusões de IDs

O que a anotação de vídeo do Potato faz hoje

O Potato lida com anotação de vídeo básica pelo tipo video_annotation. Os requintes específicos de MOT (gerenciamento automático de IDs, interpolação, tratamento de oclusão) ainda não existem, mas você ainda pode montar um fluxo básico de rotulagem de vídeo.

Configuração básica de anotação de vídeo

yaml
annotation_task_name: "Video Object Labeling"
 
data_files:
  - data/videos.json
 
annotation_schemes:
  - annotation_type: video_annotation
    name: objects
    description: "Label objects in video frames"
    video_path: video
    labels:
      - name: person
      - name: vehicle
      - name: cyclist

Formato dos dados de exemplo

Seu arquivo data/videos.json contém entradas com caminhos de vídeo:

json
[
  {
    "id": "video_001",
    "video": "/path/to/video.mp4"
  },
  {
    "id": "video_002",
    "video": "/path/to/another_video.mp4"
  }
]

Rastreamento manual

Sem recursos dedicados de MOT, você ainda pode rastrear objetos manualmente. É mais trabalhoso, mas funciona.

Construindo trajetórias um quadro de cada vez

  1. Vá até o quadro em que um objeto aparece pela primeira vez
  2. Rotule-o na interface de anotação de vídeo
  3. Dê a ele um identificador consistente na anotação, como "person_1"
  4. Avance pelos quadros seguintes e continue rotulando-o com esse mesmo identificador

Lidando com oclusões

Quando um objeto desaparece atrás de algo:

  1. Anote o último quadro em que você conseguia vê-lo
  2. Quando ele reaparecer, reutilize o mesmo identificador para que a trajetória permaneça contínua
  3. Registre o período de oclusão nas suas notas de anotação

Recursos que estamos considerando

Estes tornariam o Potato muito melhor em MOT, e estão na lista de trabalhos futuros:

  • Atribuição automática de IDs que incrementa os IDs automaticamente para novos objetos
  • Interpolação de trajetórias, linear ou cúbica, entre quadros-chave
  • Tratamento de oclusão com níveis de visibilidade (visible, partial, heavy, not_visible)
  • Visualização de trajetória para mostrar os caminhos dos objetos ao longo dos quadros
  • Um painel de gerenciamento de trajetórias para mesclar, dividir e gerenciar IDs de trajetória
  • Atributos por quadro para propriedades que mudam de um quadro para o outro

Se algum desses importa para você, entre em contato com a equipe do Potato ou contribua você mesmo com o recurso.

Dicas para anotação manual de MOT

  1. Trabalhe em segmentos curtos de 100 a 200 quadros por vez.
  2. Use um esquema de ID claro como "person_001" ou "vehicle_023" e mantenha-o.
  3. Mantenha notas sobre oclusões e as decisões de trajetória que você tomou.
  4. Faça uma passagem de revisão: assista ao segmento para frente e depois para trás, para pegar erros.
  5. Apoie-se em ferramentas externas. O pré-processamento com modelos de detecção poupa muitos cliques.

Outras formas de abordar isso

Se você precisa de recursos completos de MOT agora, aqui vão alguns caminhos:

  1. Execute um fluxo híbrido: faça a rotulagem inicial no Potato e depois passe para uma ferramenta especializada de MOT para o gerenciamento de trajetórias.
  2. Pré-anote com detectores de objetos para gerar caixas delimitadoras iniciais e depois refine-as no Potato.
  3. Exporte suas anotações do Potato e rode algoritmos de rastreamento sobre elas depois.

Para onde ir agora

Para o panorama completo de como a anotação de vídeo funciona no Potato, consulte a documentação de origem.


Para a documentação atual de anotação de vídeo, consulte /docs/features/image-annotation.