Anotação de vídeo
Como anotar vídeo no Potato: navegação quadro a quadro, rotulagem de segmentos temporais, classificação por quadro e rastreamento de objetos entre quadros.
A anotação de vídeo acrescenta um eixo temporal ao trabalho com imagens. O mesmo clipe pode ser rotulado como um todo, dividido em intervalos de tempo ("o gol acontece de 0:12 a 0:15") ou anotado quadro a quadro. O Potato oferece navegação por quadros e controles temporais para que os anotadores percorram um clipe com precisão.
As tarefas de vídeo são centrais no reconhecimento de atividades e no rastreamento de objetos.
Classificação no nível do clipe
A tarefa mais simples: um rótulo para o clipe inteiro.
annotation_schemes:
- annotation_type: radio
name: action
description: "What is the main action in this clip?"
labels: [Walking, Running, Sitting, Jumping, Other]Segmentos temporais, quando algo acontece
Para marcar intervalos na linha do tempo, use um trecho (span) sobre o eixo temporal do vídeo, assim como a detecção de eventos sonoros faz com o áudio.
annotation_schemes:
- annotation_type: span
name: events
description: "Mark the start and end of each event and label it."
labels: [Goal, Foul, Substitution, Replay]Anotação por quadro e rastreamento
Para o trabalho no nível do quadro, seja classificar quadros individuais ou rastrear um objeto ao longo dos quadros, os anotadores avançam pelo vídeo e anotam em cada quadro. Defina uma taxa de amostragem (cada quadro, cada N-ésimo quadro ou apenas os quadros-chave); rotular cada quadro é caro, então a maioria dos projetos faz subamostragem.
Manter a anotação de vídeo consistente
- Precisão dos limites. Combinem com que exatidão o início e o fim de cada segmento devem ser marcados; a precisão no nível do quadro sai cara.
- Oclusão e saída. Escrevam regras para quando um objeto rastreado fica oculto ou sai do quadro.
- Carga de trabalho. O vídeo é a modalidade que mais consome tempo; faça um piloto para estimar o custo antes de escalar e considere a pré-anotação com LLM/visão para gerar rótulos iniciais.
Leitura adicional
- Anotação de áudio, as mesmas ideias de trechos temporais
- Anotação de imagens
- Anotação de trechos