동영상 어노테이션
Potato에서 동영상을 어노테이션하는 방법: 프레임 단위 탐색, 시간 구간 레이블링, 프레임별 분류, 프레임 간 객체 추적.
동영상 어노테이션은 이미지 작업에 시간 축을 더합니다. 같은 클립을 전체로 레이블링할 수도 있고, 시간 구간으로 나눌 수도 있으며("골은 0:12부터 0:15 사이에 일어난다"), 프레임 단위로 어노테이션할 수도 있습니다. Potato는 프레임 탐색과 시간 제어 기능을 제공하여 어노테이터가 클립을 정밀하게 이동할 수 있게 합니다.
동영상 작업은 행동 인식과 객체 추적에서 핵심적입니다.
클립 단위 분류
가장 간단한 작업은 클립 전체에 레이블 하나를 붙이는 것입니다.
yaml
annotation_schemes:
- annotation_type: radio
name: action
description: "What is the main action in this clip?"
labels: [Walking, Running, Sitting, Jumping, Other]시간 구간, 무언가가 일어나는 시점
타임라인에서 구간을 표시하려면, 음향 이벤트 검출이 오디오에 대해 하는 것과 마찬가지로 동영상의 시간 축에 걸친 span을 사용합니다.
yaml
annotation_schemes:
- annotation_type: span
name: events
description: "Mark the start and end of each event and label it."
labels: [Goal, Foul, Substitution, Replay]프레임별 어노테이션과 추적
개별 프레임을 분류하거나 프레임에 걸쳐 객체를 추적하는 프레임 단위 작업의 경우, 어노테이터는 동영상을 단계적으로 넘기며 각 프레임에서 어노테이션합니다. 샘플링 비율(모든 프레임, N번째 프레임마다, 또는 키프레임만)을 정합니다. 모든 프레임에 레이블을 붙이는 것은 비용이 크므로 대부분의 프로젝트는 서브샘플링을 합니다.
동영상 어노테이션을 일관되게 유지하기
- 경계 정밀도. 각 구간의 시작과 끝을 얼마나 정확하게 표시해야 하는지 합의하십시오. 프레임 단위 정밀도는 비용이 큽니다.
- 가림과 이탈. 추적 중인 객체가 가려지거나 화면을 벗어날 때를 위한 규칙을 작성하십시오.
- 작업량. 동영상은 가장 시간이 많이 드는 양식이므로, 규모를 키우기 전에 파일럿으로 비용을 추정하고, 초기 레이블을 생성하기 위해 LLM/비전 사전 어노테이션을 고려하십시오.
더 읽을거리
- 오디오 어노테이션, 동일한 시간 span 개념
- 이미지 어노테이션
- Span 어노테이션