视频标注

如何在 Potato 中标注视频：逐帧导航、时间区间标注、逐帧分类，以及跨帧的目标跟踪。

视频标注在图像工作的基础上加入了时间轴。同一段视频可以作为整体打标签，可以切分成时间区间（"进球发生在 0:12 到 0:15"），也可以逐帧标注。 Potato 提供帧导航和时间控制，让标注者能够精确地在片段中移动。

片段级分类

最简单的任务：给整段视频一个标签。

yaml

annotation_schemes:
  - annotation_type: radio
    name: action
    description: "What is the main action in this clip?"
    labels: [Walking, Running, Sitting, Jumping, Other]

时间区间，标记某事何时发生

要在时间线上标记区间，可以在视频的时间轴上使用跨度（span），这与声音事件检测对音频的处理方式相同。

yaml

annotation_schemes:
  - annotation_type: span
    name: events
    description: "Mark the start and end of each event and label it."
    labels: [Goal, Foul, Substitution, Replay]

逐帧标注与跟踪

对于帧级别的工作，无论是对单个帧分类，还是跨帧跟踪某个目标，标注者都要逐帧浏览视频并在每一帧上标注。需要确定一个采样率（每一帧、每隔 N 帧，还是只取关键帧）；逐帧标注成本很高，因此大多数项目会进行下采样。

保持视频标注的一致性

边界精度。 约定区间起止点必须精确到什么程度；帧级精度代价高昂。
遮挡与离场。 为被跟踪目标被遮挡或离开画面的情形制定规则。
工作量。 视频是最耗时的模态，先做小规模试标来估算成本再扩大规模，并考虑用 LLM/视觉预标注来生成初始标签。

视频标注

片段级分类

时间区间，标记某事何时发生

逐帧标注与跟踪

保持视频标注的一致性

延伸阅读