Anotação de Áudio

Um guia completo de anotação de áudio no Potato: classificação, marcação por tags, detecção de eventos sonoros na forma de onda, transcrição, avaliações de qualidade (MOS), emoção e diarização de locutores.

A anotação de áudio abrange desde rotular um clipe inteiro ("isto é fala ou música?") até marcar o momento exato em que um som ocorre na forma de onda. O Potato exibe uma forma de onda interativa com reprodução e marcadores de tempo, então a mesma ferramenta dá conta de classificação, marcação por tags, detecção de eventos alinhada ao tempo, transcrição, avaliações de qualidade e trabalho com locutores. Para a referência do recurso, consulte Anotação de Áudio.

Este guia associa cada tarefa de áudio comum a uma configuração do Potato e a um design de showcase executável.

Classificação no nível do clipe

Rotule o clipe inteiro com uma única categoria. Isso cobre a classificação de cenas acústicas, a classificação de sons ambientais, a detecção de palavras-chave e a classificação de sons respiratórios.

yaml

annotation_schemes:
  - annotation_type: radio
    name: scene
    description: "What environment was this recorded in?"
    labels: [Street, Park, Office, Home, Vehicle]

Marcação multi-rótulo

Quando vários sons ou tags se aplicam ao mesmo tempo, como em marcação musical e classificação de eventos no estilo AudioSet, use multiselect.

yaml

annotation_schemes:
  - annotation_type: multiselect
    name: tags
    description: "Select every instrument you can hear."
    labels: [Guitar, Drums, Piano, Vocals, Bass, Synth]

Detecção de eventos sonoros: spans na forma de onda

Para marcar quando um som começa e termina, use um span ao longo da linha do tempo do áudio. Isso é detecção de eventos sonoros, a versão em áudio da anotação de span.

yaml

annotation_schemes:
  - annotation_type: span
    name: events
    description: "Mark the start and end of each sound event and label it."
    labels: [Speech, Music, Dog bark, Siren, Silence]

Transcrição

Para transcrição de áudio, combine a reprodução com um campo de texto livre. Os anotadores podem percorrer a forma de onda enquanto digitam.

yaml

annotation_schemes:
  - annotation_type: text
    name: transcript
    description: "Type what is said in this clip."

Avaliações de qualidade: MOS e inteligibilidade

A qualidade subjetiva do áudio é medida com uma pontuação média de opinião, uma avaliação Likert de 1 a 5 calculada como média entre os ouvintes. Isso cobre qualidade da fala (MOS) e inteligibilidade da fala.

yaml

annotation_schemes:
  - annotation_type: likert
    name: mos
    description: "Rate the overall quality of this audio."
    size: 5
    min_label: "Bad"
    max_label: "Excellent"

Veja Escalas de Avaliação para dicas de design de escalas.

Emoção e sentimento

Reconhecimento de emoção na fala e análise de sentimento em áudio combinam uma categoria (a emoção) com avaliações dimensionais (excitação, valência) usando radio mais slider ou likert.

Diarização de locutores

A diarização de locutores responde "quem falou e quando". Os anotadores marcam spans de tempo e vinculam cada um a um locutor, o que é anotação de span mais uma etapa de vinculação.

Dicas práticas

Mantenha os clipes curtos o bastante para serem julgados em uma ou duas reproduções; clipes longos reduzem a concordância.
Para detecção de eventos, combine quão precisos os limites precisam ser e meça a concordância no nível do span, veja Concordância entre Anotadores.
Normalize o volume entre os clipes para que as avaliações de qualidade não sejam guiadas pelo volume.

Anotação de Áudio

Classificação no nível do clipe

Marcação multi-rótulo

Detecção de eventos sonoros: spans na forma de onda

Transcrição

Avaliações de qualidade: MOS e inteligibilidade

Emoção e sentimento

Diarização de locutores

Dicas práticas

Leitura adicional