Esta página aún no está disponible en su idioma. Se muestra la versión en inglés.
Annotazione Audio
Segmenta file audio e assegna etichette a regioni temporali con visualizzazione della forma d'onda.
Annotazione Audio
Lo strumento di annotazione audio di Potato consente agli annotatori di segmentare file audio e assegnare etichette a regioni temporali tramite un'interfaccia basata sulla forma d'onda.
Funzionalità
- Visualizzazione della forma d'onda
- Creazione di segmenti basata sul tempo
- Assegnazione di etichette ai segmenti
- Controlli di riproduzione con velocità variabile
- Navigazione tramite zoom e scorrimento
- Scorciatoie da tastiera
- Caching della forma d'onda lato server
Configurazione di base
yaml
annotation_schemes:
- name: "speakers"
description: "Mark when each speaker is talking"
annotation_type: "audio_annotation"
labels:
- name: "Speaker 1"
color: "#3B82F6"
- name: "Speaker 2"
color: "#10B981"Opzioni di configurazione
| Campo | Tipo | Predefinito | Descrizione |
|---|---|---|---|
name | string | Obbligatorio | Identificatore univoco dell'annotazione |
description | string | Obbligatorio | Istruzioni mostrate agli annotatori |
annotation_type | string | Obbligatorio | Deve essere "audio_annotation" |
mode | string | "label" | Modalità di annotazione: "label", "questions" o "both" |
labels | list | Condizionale | Obbligatorio per le modalità label o both |
segment_schemes | list | Condizionale | Obbligatorio per le modalità questions o both |
min_segments | integer | 0 | Numero minimo di segmenti richiesti |
max_segments | integer | null | Numero massimo di segmenti consentiti (null = illimitato) |
zoom_enabled | boolean | true | Abilita i controlli di zoom |
playback_rate_control | boolean | false | Mostra il selettore della velocità di riproduzione |
Configurazione delle etichette
yaml
labels:
- name: "speech"
color: "#3B82F6"
key_value: "1"
- name: "music"
color: "#10B981"
key_value: "2"
- name: "silence"
color: "#64748B"
key_value: "3"Modalità di annotazione
Modalità etichetta (predefinita)
I segmenti ricevono etichette di categoria:
yaml
annotation_schemes:
- name: "emotion"
description: "Label the emotion in each segment"
annotation_type: "audio_annotation"
mode: "label"
labels:
- name: "happy"
color: "#22C55E"
- name: "sad"
color: "#3B82F6"
- name: "angry"
color: "#EF4444"
- name: "neutral"
color: "#64748B"Modalità domande
Ogni segmento risponde a domande dedicate:
yaml
annotation_schemes:
- name: "transcription"
description: "Transcribe each segment"
annotation_type: "audio_annotation"
mode: "questions"
segment_schemes:
- name: "transcript"
annotation_type: "text"
description: "Enter the transcription"
- name: "confidence"
annotation_type: "likert"
description: "How confident are you?"
size: 5Modalità combinata
Combina l'etichettatura con questionari per segmento:
yaml
annotation_schemes:
- name: "detailed_diarization"
description: "Label speakers and add notes"
annotation_type: "audio_annotation"
mode: "both"
labels:
- name: "Speaker A"
color: "#3B82F6"
- name: "Speaker B"
color: "#10B981"
segment_schemes:
- name: "notes"
annotation_type: "text"
description: "Any notes about this segment?"Configurazione audio globale
Configura la gestione della forma d'onda nel tuo file di configurazione:
yaml
audio_annotation:
waveform_cache_dir: "waveform_cache/"
waveform_look_ahead: 5
waveform_cache_max_size: 1000
client_fallback_max_duration: 1800| Campo | Descrizione |
|---|---|
waveform_cache_dir | Directory per i dati della forma d'onda memorizzati nella cache |
waveform_look_ahead | Numero di istanze successive da pre-calcolare |
waveform_cache_max_size | Numero massimo di file di forma d'onda nella cache |
client_fallback_max_duration | Secondi massimi per la generazione della forma d'onda lato browser (predefinito: 1800) |
Esempi
Diarizzazione degli oratori
yaml
annotation_schemes:
- name: "diarization"
description: "Identify who is speaking at each moment"
annotation_type: "audio_annotation"
mode: "label"
labels:
- name: "Interviewer"
color: "#8B5CF6"
key_value: "1"
- name: "Guest"
color: "#EC4899"
key_value: "2"
- name: "Overlap"
color: "#F59E0B"
key_value: "3"
zoom_enabled: true
playback_rate_control: trueRilevamento di eventi sonori
yaml
annotation_schemes:
- name: "sound_events"
description: "Mark all sound events"
annotation_type: "audio_annotation"
labels:
- name: "speech"
color: "#3B82F6"
- name: "music"
color: "#10B981"
- name: "applause"
color: "#F59E0B"
- name: "laughter"
color: "#EC4899"
- name: "silence"
color: "#64748B"
min_segments: 1Revisione della trascrizione
yaml
annotation_schemes:
- name: "transcription_review"
description: "Review and correct the transcription for each segment"
annotation_type: "audio_annotation"
mode: "questions"
segment_schemes:
- name: "transcript"
annotation_type: "text"
description: "Enter or correct the transcription"
textarea: true
- name: "quality"
annotation_type: "radio"
description: "Audio quality"
labels:
- "Clear"
- "Noisy"
- "Unintelligible"Scorciatoie da tastiera
| Tasto | Azione |
|---|---|
Space | Riproduci/pausa |
← / → | Indietro/avanti |
[ | Segna l'inizio del segmento |
] | Segna la fine del segmento |
Enter | Crea segmento |
Delete | Rimuovi il segmento selezionato |
1-9 | Seleziona etichetta |
+ / - | Zoom avanti/indietro |
0 | Adatta la vista |
Formato dei dati
Dati di input
Il file di dati deve includere percorsi o URL dei file audio:
json
[
{
"id": "audio_001",
"audio_url": "https://example.com/audio/recording1.mp3"
},
{
"id": "audio_002",
"audio_url": "/data/audio/recording2.wav"
}
]Configura il campo audio:
yaml
item_properties:
id_key: id
text_key: audio_urlFormato di output
json
{
"id": "audio_001",
"annotations": {
"diarization": [
{
"start": 0.0,
"end": 5.5,
"label": "Interviewer"
},
{
"start": 5.5,
"end": 12.3,
"label": "Guest"
},
{
"start": 12.3,
"end": 14.0,
"label": "Overlap"
}
]
}
}In modalità domande, i segmenti includono risposte annidate:
json
{
"start": 0.0,
"end": 5.5,
"transcript": "Hello and welcome to the show.",
"quality": "Clear"
}Formati audio supportati
- MP3 (consigliato)
- WAV
- OGG
- M4A
Buone pratiche
- Pre-cacha le forme d'onda - Usa il caching lato server per dataset di grandi dimensioni
- Abilita il controllo della riproduzione - La velocità variabile aiuta nella segmentazione precisa
- Usa le scorciatoie da tastiera - Molto più veloce del clic
- Definisci confini chiari - Specifica cosa costituisce l'inizio/fine di un segmento
- Scegli la modalità appropriata - Usa "label" per la classificazione, "questions" per annotazioni dettagliate
- Imposta limiti di segmenti - Usa
min_segmentsper garantire la copertura