Bons dados de treinamento de ASR geralmente começam com um humano revisando o primeiro rascunho da máquina. Este tutorial mostra como construir uma interface em que os anotadores ouvem o áudio, veem a forma de onda e corrigem a transcrição gerada pela máquina. Para conhecer as opções de áudio das quais ela depende, consulte a documentação de anotação de áudio.

O Que Vamos Construir

Uma interface com:

Visualização de forma de onda
Controles de reprodução (reproduzir, pausar, ajuste de velocidade)
Texto de transcrição editável
Avaliação de qualidade do áudio
Marcação de confiança para segmentos incertos

Configuração Básica

yaml

annotation_task_name: "Transcription Review"
 
data_files:
  - "data/transcripts.json"
 
item_properties:
  id_key: id
  text_key: asr_transcript
 
annotation_schemes:
  # Audio playback
  - annotation_type: audio_annotation
    name: audio_player
    audio_key: audio_path
 
  # Corrected transcript
  - annotation_type: text
    name: corrected_transcript
    description: "Edit the transcript to match what you hear"
    multiline: true
    placeholder: "Type the corrected transcript..."
    required: true
 
  # Quality rating
  - annotation_type: radio
    name: audio_quality
    description: "Rate the audio quality"
    labels:
      - Clear
      - Slightly noisy
      - Very noisy
      - Unintelligible

Formato dos Dados de Exemplo

Crie data/transcripts.json:

json

{"id": "audio_001", "audio_path": "/audio/recording_001.wav", "asr_transcript": "Hello how are you doing today"}
{"id": "audio_002", "audio_path": "/audio/recording_002.wav", "asr_transcript": "The weather is nice outside"}
{"id": "audio_003", "audio_path": "/audio/recording_003.wav", "asr_transcript": "Please call me back when your free"}

Configuração da Anotação de Áudio

A anotação de áudio no Potato usa o tipo audio_annotation dentro dos seus esquemas de anotação. O player desenha a forma de onda e adiciona os controles de reprodução por conta própria, então você não precisa montar isso manualmente:

yaml

annotation_schemes:
  - annotation_type: audio_annotation
    name: audio_player
    audio_key: audio_path
    description: "Listen to the audio recording"

O player de áudio inclui controles integrados para reproduzir/pausar, buscar e ajustar a velocidade.

Interface Abrangente de Transcrição

yaml

annotation_task_name: "ASR Correction and Annotation"
 
data_files:
  - "data/asr_output.json"
 
item_properties:
  id_key: id
  text_key: hypothesis
 
annotation_schemes:
  # Audio player
  - annotation_type: audio_annotation
    name: audio_player
    audio_key: audio_url
 
  # Main transcript correction
  - annotation_type: text
    name: transcript
    description: "Correct the transcript below"
    multiline: true
    rows: 4
    required: true
 
  # Speaker identification
  - annotation_type: radio
    name: num_speakers
    description: "How many speakers are in this recording?"
    labels:
      - "1 speaker"
      - "2 speakers"
      - "3+ speakers"
      - "Cannot determine"
 
  # Audio quality
  - annotation_type: radio
    name: quality
    description: "Overall audio quality"
    labels:
      - name: Excellent
        description: "Crystal clear, studio quality"
      - name: Good
        description: "Clear speech, minor background noise"
      - name: Fair
        description: "Understandable but noisy"
      - name: Poor
        description: "Very difficult to understand"
      - name: Unusable
        description: "Cannot transcribe accurately"
 
  # Issues checklist
  - annotation_type: multiselect
    name: issues
    description: "Select all issues present (if any)"
    labels:
      - Background noise
      - Overlapping speech
      - Accented speech
      - Fast speech
      - Mumbling/unclear
      - Technical audio issues
      - Non-English words
      - Profanity present
      - None
 
  # Confidence
  - annotation_type: likert
    name: confidence
    description: "How confident are you in your transcription?"
    size: 5
    min_label: "Guessing"
    max_label: "Certain"
 
annotation_guidelines:
  title: "Transcription Guidelines"
  content: |
    ## Your Task
    Listen to the audio and correct the ASR transcript.
 
    ## Transcription Rules
    - Transcribe exactly what is said
    - Include filler words (um, uh, like)
    - Use proper punctuation and capitalization
    - Mark unintelligible sections with [unintelligible]
    - Mark uncertain words with [word?]
 
    ## Special Notations
    - [unintelligible] - Cannot understand
    - [word?] - Uncertain about word
    - [crosstalk] - Overlapping speech
    - [noise] - Non-speech sound
    - [pause] - Significant silence

Anotação no Nível da Palavra

Para correções detalhadas no nível da palavra, você pode usar a anotação de trechos junto com os campos de texto:

yaml

annotation_schemes:
  - annotation_type: audio_annotation
    name: audio_player
    audio_key: audio_path
 
  - annotation_type: text
    name: transcript
    multiline: true
 
  - annotation_type: span
    name: word_corrections
    description: "Mark words that needed correction"
    source_field: transcript
    labels:
      - name: corrected
        color: "#FCD34D"
        description: "Word was changed"
      - name: inserted
        color: "#4ADE80"
        description: "Word was added"
      - name: uncertain
        color: "#F87171"
        description: "Still not sure"

Transcrição Baseada em Segmentos

Para arquivos de áudio longos, você pode preparar seus dados como segmentos com informações de temporização:

yaml

data_files:
  - "data/segments.json"
 
item_properties:
  id_key: id
  text_key: asr_text
 
annotation_schemes:
  - annotation_type: audio_annotation
    name: audio_player
    audio_key: audio_path
 
  - annotation_type: text
    name: transcript
    multiline: true
    description: "Correct the transcript for this segment"

Formato de dados com a temporização do segmento:

json

{
  "id": "seg_001",
  "audio_path": "/audio/long_recording.wav",
  "start_time": 0.0,
  "end_time": 5.5,
  "asr_text": "Welcome to today's presentation"
}

Formato de Saída

json

{
  "id": "audio_001",
  "audio_path": "/audio/recording_001.wav",
  "original_transcript": "Hello how are you doing today",
  "annotations": {
    "transcript": "Hello, how are you doing today?",
    "num_speakers": "1 speaker",
    "quality": "Good",
    "issues": ["None"],
    "confidence": 5
  },
  "annotator": "transcriber_01",
  "time_spent_seconds": 45
}

Controle de Qualidade

O Potato registra o tempo de anotação automaticamente. Para controle de qualidade, misture alguns itens de verificação de atenção no seu arquivo de dados: clipes com uma resposta correta conhecida que permitem identificar anotadores que não estão de fato ouvindo.

Você pode configurar onde e como as anotações são gravadas:

yaml

output_annotation_dir: "annotation_output"
export_annotation_format: "json"

Dicas para Tarefas de Transcrição

Fones de ouvido decentes e uma sala silenciosa fazem a maior parte do trabalho pela precisão. Reduza a velocidade do áudio nas partes que você não consegue entender bem e conte com mais de uma passagem: ouça, transcreva e depois volte para verificar. A transcrição é mentalmente desgastante, então reserve pausas regulares.

Próximos Passos

Adicione diarização de locutores para áudio com múltiplos locutores
Configure a classificação de emoção junto com a transcrição
Configure o crowdsourcing para transcrição em larga escala

Documentação completa de áudio em /docs/features/audio-annotation.