Anotación de vídeo

Cómo anotar vídeo en Potato: navegación fotograma a fotograma, etiquetado de segmentos temporales, clasificación por fotograma y seguimiento de objetos entre fotogramas.

La anotación de vídeo añade un eje temporal al trabajo con imágenes. El mismo clip se puede etiquetar como un todo, segmentar en intervalos de tiempo ("el gol ocurre de 0:12 a 0:15") o anotar fotograma a fotograma. Potato ofrece navegación por fotogramas y controles temporales para que los anotadores recorran un clip con precisión.

Las tareas de vídeo son centrales en el reconocimiento de actividades y el seguimiento de objetos.

Clasificación a nivel de clip

La tarea más simple: una etiqueta para todo el clip.

yaml

annotation_schemes:
  - annotation_type: radio
    name: action
    description: "What is the main action in this clip?"
    labels: [Walking, Running, Sitting, Jumping, Other]

Segmentos temporales, cuándo ocurre algo

Para marcar intervalos en la línea de tiempo, usa un tramo (span) sobre el eje temporal del vídeo, igual que hace la detección de eventos sonoros con el audio.

yaml

annotation_schemes:
  - annotation_type: span
    name: events
    description: "Mark the start and end of each event and label it."
    labels: [Goal, Foul, Substitution, Replay]

Anotación por fotograma y seguimiento

Para el trabajo a nivel de fotograma, ya sea clasificar fotogramas individuales o seguir un objeto a lo largo de los fotogramas, los anotadores avanzan por el vídeo y anotan en cada fotograma. Decide una tasa de muestreo (cada fotograma, cada N fotogramas o solo los fotogramas clave); etiquetar cada fotograma es costoso, así que la mayoría de los proyectos submuestrean.

Mantener coherente la anotación de vídeo

Precisión de los límites. Acuerda con qué exactitud deben marcarse el inicio y el final de cada segmento; la precisión a nivel de fotograma sale cara.
Oclusión y salida. Redacta reglas para cuando un objeto seguido queda oculto o sale del encuadre.
Carga de trabajo. El vídeo es la modalidad que más tiempo consume; haz una prueba piloto para estimar el coste antes de escalar y plantéate la preanotación con LLM/visión para generar etiquetas iniciales.

Lecturas adicionales

Anotación de audio, las mismas ideas de tramos temporales
Anotación de imágenes
Anotación de tramos