Skip to content

오디오 어노테이션

Potato에서의 오디오 어노테이션 완전 가이드. 분류, 태깅, 파형 상의 음향 이벤트 검출, 전사, 품질(MOS) 평가, 감정, 화자 분할을 다룹니다.

오디오 어노테이션은 클립 전체에 라벨을 붙이는 작업("이것은 음성인가 음악인가?")부터 어떤 소리가 파형 상에서 정확히 발생하는 순간을 표시하는 작업까지 모든 것을 다룹니다. Potato는 재생과 시간 마커가 있는 인터랙티브 파형을 표시하므로, 동일한 도구로 분류, 태깅, 시간 정렬된 이벤트 검출, 전사, 품질 평가, 화자 관련 작업을 처리합니다. 기능 레퍼런스는 오디오 어노테이션을 참조하십시오.

이 가이드는 흔한 오디오 작업 각각을 Potato 설정과 실행 가능한 showcase 디자인에 대응시킵니다.

클립 수준 분류

클립 전체에 하나의 카테고리로 라벨을 붙입니다. 여기에는 음향 장면 분류, 환경음 분류, 키워드 검출, 호흡음 분류가 포함됩니다.

yaml
annotation_schemes:
  - annotation_type: radio
    name: scene
    description: "What environment was this recorded in?"
    labels: [Street, Park, Office, Home, Vehicle]

다중 라벨 태깅

음악 태깅이나 AudioSet 스타일 이벤트 분류처럼 여러 소리나 태그가 동시에 적용될 때는 multiselect를 사용합니다.

yaml
annotation_schemes:
  - annotation_type: multiselect
    name: tags
    description: "Select every instrument you can hear."
    labels: [Guitar, Drums, Piano, Vocals, Bass, Synth]

음향 이벤트 검출: 파형 상의 span

소리가 언제 시작하고 끝나는지 표시하려면 오디오 타임라인 위에 span을 사용합니다. 이것이 음향 이벤트 검출이며, span 어노테이션의 오디오 버전입니다.

yaml
annotation_schemes:
  - annotation_type: span
    name: events
    description: "Mark the start and end of each sound event and label it."
    labels: [Speech, Music, Dog bark, Siren, Silence]

전사

오디오 전사에서는 재생을 자유 텍스트 필드와 결합합니다. 어노테이터는 입력하면서 파형을 탐색할 수 있습니다.

yaml
annotation_schemes:
  - annotation_type: text
    name: transcript
    description: "Type what is said in this clip."

품질 평가: MOS와 명료도

주관적 오디오 품질은 청취자 간 평균을 낸 1–5 Likert 평가인 평균 의견 점수로 측정합니다. 여기에는 음성 품질(MOS)음성 명료도가 포함됩니다.

yaml
annotation_schemes:
  - annotation_type: likert
    name: mos
    description: "Rate the overall quality of this audio."
    size: 5
    min_label: "Bad"
    max_label: "Excellent"

척도 설계 팁은 평가 척도를 참조하십시오.

감정과 정서

음성 감정 인식오디오 정서 분석은 카테고리(감정)를 차원 평가(각성도, 정서가)와 결합하며, radio와 함께 slider 또는 likert를 사용합니다.

화자 분할

화자 분할은 "누가 언제 말했는가"에 답합니다. 어노테이터는 시간 span을 표시하고 각각을 화자에 연결하는데, 이는 span 어노테이션에 연결 단계를 더한 것입니다.

실용적인 팁

  • 한두 번의 재생으로 판단할 수 있을 만큼 클립을 짧게 유지하십시오. 긴 클립은 일치도를 낮춥니다.
  • 이벤트 검출에서는 경계가 얼마나 정확해야 하는지 합의하고 span 수준에서 일치도를 측정하십시오. 어노테이터 간 일치도를 참조하십시오.
  • 품질 평가가 음량에 좌우되지 않도록 클립 간 음량을 정규화하십시오.

더 읽을거리