동영상 어노테이션

Potato에서 동영상을 어노테이션하는 방법: 프레임 단위 탐색, 시간 구간 레이블링, 프레임별 분류, 프레임 간 객체 추적.

동영상 어노테이션은 이미지 작업에 시간 축을 더합니다. 같은 클립을 전체로 레이블링할 수도 있고, 시간 구간으로 나눌 수도 있으며("골은 0:12부터 0:15 사이에 일어난다"), 프레임 단위로 어노테이션할 수도 있습니다. Potato는 프레임 탐색과 시간 제어 기능을 제공하여 어노테이터가 클립을 정밀하게 이동할 수 있게 합니다.

동영상 작업은 행동 인식과 객체 추적에서 핵심적입니다.

클립 단위 분류

가장 간단한 작업은 클립 전체에 레이블 하나를 붙이는 것입니다.

yaml

annotation_schemes:
  - annotation_type: radio
    name: action
    description: "What is the main action in this clip?"
    labels: [Walking, Running, Sitting, Jumping, Other]

시간 구간, 무언가가 일어나는 시점

타임라인에서 구간을 표시하려면, 음향 이벤트 검출이 오디오에 대해 하는 것과 마찬가지로 동영상의 시간 축에 걸친 span을 사용합니다.

yaml

annotation_schemes:
  - annotation_type: span
    name: events
    description: "Mark the start and end of each event and label it."
    labels: [Goal, Foul, Substitution, Replay]

프레임별 어노테이션과 추적

개별 프레임을 분류하거나 프레임에 걸쳐 객체를 추적하는 프레임 단위 작업의 경우, 어노테이터는 동영상을 단계적으로 넘기며 각 프레임에서 어노테이션합니다. 샘플링 비율(모든 프레임, N번째 프레임마다, 또는 키프레임만)을 정합니다. 모든 프레임에 레이블을 붙이는 것은 비용이 크므로 대부분의 프로젝트는 서브샘플링을 합니다.