Anotação de Áudio
Um guia completo de anotação de áudio no Potato: classificação, marcação por tags, detecção de eventos sonoros na forma de onda, transcrição, avaliações de qualidade (MOS), emoção e diarização de locutores.
A anotação de áudio abrange desde rotular um clipe inteiro ("isto é fala ou música?") até marcar o momento exato em que um som ocorre na forma de onda. O Potato exibe uma forma de onda interativa com reprodução e marcadores de tempo, então a mesma ferramenta dá conta de classificação, marcação por tags, detecção de eventos alinhada ao tempo, transcrição, avaliações de qualidade e trabalho com locutores. Para a referência do recurso, consulte Anotação de Áudio.
Este guia associa cada tarefa de áudio comum a uma configuração do Potato e a um design de showcase executável.
Classificação no nível do clipe
Rotule o clipe inteiro com uma única categoria. Isso cobre a classificação de cenas acústicas, a classificação de sons ambientais, a detecção de palavras-chave e a classificação de sons respiratórios.
annotation_schemes:
- annotation_type: radio
name: scene
description: "What environment was this recorded in?"
labels: [Street, Park, Office, Home, Vehicle]Marcação multi-rótulo
Quando vários sons ou tags se aplicam ao mesmo tempo, como em marcação musical e classificação de eventos no estilo AudioSet, use multiselect.
annotation_schemes:
- annotation_type: multiselect
name: tags
description: "Select every instrument you can hear."
labels: [Guitar, Drums, Piano, Vocals, Bass, Synth]Detecção de eventos sonoros: spans na forma de onda
Para marcar quando um som começa e termina, use um span ao longo da linha do tempo do áudio. Isso é detecção de eventos sonoros, a versão em áudio da anotação de span.
annotation_schemes:
- annotation_type: span
name: events
description: "Mark the start and end of each sound event and label it."
labels: [Speech, Music, Dog bark, Siren, Silence]Transcrição
Para transcrição de áudio, combine a reprodução com um campo de texto livre. Os anotadores podem percorrer a forma de onda enquanto digitam.
annotation_schemes:
- annotation_type: text
name: transcript
description: "Type what is said in this clip."Avaliações de qualidade: MOS e inteligibilidade
A qualidade subjetiva do áudio é medida com uma pontuação média de opinião, uma avaliação Likert de 1 a 5 calculada como média entre os ouvintes. Isso cobre qualidade da fala (MOS) e inteligibilidade da fala.
annotation_schemes:
- annotation_type: likert
name: mos
description: "Rate the overall quality of this audio."
size: 5
min_label: "Bad"
max_label: "Excellent"Veja Escalas de Avaliação para dicas de design de escalas.
Emoção e sentimento
Reconhecimento de emoção na fala e análise de sentimento em áudio combinam uma categoria (a emoção) com avaliações dimensionais (excitação, valência) usando radio mais slider ou likert.
Diarização de locutores
A diarização de locutores responde "quem falou e quando". Os anotadores marcam spans de tempo e vinculam cada um a um locutor, o que é anotação de span mais uma etapa de vinculação.
Dicas práticas
- Mantenha os clipes curtos o bastante para serem julgados em uma ou duas reproduções; clipes longos reduzem a concordância.
- Para detecção de eventos, combine quão precisos os limites precisam ser e meça a concordância no nível do span, veja Concordância entre Anotadores.
- Normalize o volume entre os clipes para que as avaliações de qualidade não sejam guiadas pelo volume.