Skip to content

Anotação de vídeo

Como anotar vídeo no Potato: navegação quadro a quadro, rotulagem de segmentos temporais, classificação por quadro e rastreamento de objetos entre quadros.

A anotação de vídeo acrescenta um eixo temporal ao trabalho com imagens. O mesmo clipe pode ser rotulado como um todo, dividido em intervalos de tempo ("o gol acontece de 0:12 a 0:15") ou anotado quadro a quadro. O Potato oferece navegação por quadros e controles temporais para que os anotadores percorram um clipe com precisão.

As tarefas de vídeo são centrais no reconhecimento de atividades e no rastreamento de objetos.

Classificação no nível do clipe

A tarefa mais simples: um rótulo para o clipe inteiro.

yaml
annotation_schemes:
  - annotation_type: radio
    name: action
    description: "What is the main action in this clip?"
    labels: [Walking, Running, Sitting, Jumping, Other]

Segmentos temporais, quando algo acontece

Para marcar intervalos na linha do tempo, use um trecho (span) sobre o eixo temporal do vídeo, assim como a detecção de eventos sonoros faz com o áudio.

yaml
annotation_schemes:
  - annotation_type: span
    name: events
    description: "Mark the start and end of each event and label it."
    labels: [Goal, Foul, Substitution, Replay]

Anotação por quadro e rastreamento

Para o trabalho no nível do quadro, seja classificar quadros individuais ou rastrear um objeto ao longo dos quadros, os anotadores avançam pelo vídeo e anotam em cada quadro. Defina uma taxa de amostragem (cada quadro, cada N-ésimo quadro ou apenas os quadros-chave); rotular cada quadro é caro, então a maioria dos projetos faz subamostragem.

Manter a anotação de vídeo consistente

  • Precisão dos limites. Combinem com que exatidão o início e o fim de cada segmento devem ser marcados; a precisão no nível do quadro sai cara.
  • Oclusão e saída. Escrevam regras para quando um objeto rastreado fica oculto ou sai do quadro.
  • Carga de trabalho. O vídeo é a modalidade que mais consome tempo; faça um piloto para estimar o custo antes de escalar e considere a pré-anotação com LLM/visão para gerar rótulos iniciais.

Leitura adicional