إعداد مراجعة النسخ الصوتي
تكوين عرض الموجة الصوتية وعناصر التحكم في التشغيل وواجهات تصحيح النص لمهام النسخ الصوتي.
إعداد مراجعة النسخ الصوتي
مراجعة النسخ ضرورية لبيانات تدريب التعرف التلقائي على الكلام (ASR) عالية الجودة. يوضح هذا الدليل التعليمي كيفية بناء واجهة يمكن للمُوسِّمين من خلالها الاستماع للصوت وعرض الموجات الصوتية وتصحيح النسخ المُولَّدة آلياً.
ما الذي نبنيه
واجهة تتضمن:
- عرض الموجة الصوتية
- عناصر التحكم في التشغيل (تشغيل، إيقاف، ضبط السرعة)
- نص نسخ قابل للتعديل
- تقييم جودة الصوت
- تحديد الثقة للمقاطع غير المؤكدة
التكوين الأساسي
annotation_task_name: "Transcription Review"
data_files:
- "data/transcripts.json"
item_properties:
id_key: id
text_key: asr_transcript
annotation_schemes:
# Audio playback
- annotation_type: audio_annotation
name: audio_player
audio_key: audio_path
# Corrected transcript
- annotation_type: text
name: corrected_transcript
description: "Edit the transcript to match what you hear"
textarea: true
placeholder: "Type the corrected transcript..."
required: true
# Quality rating
- annotation_type: radio
name: audio_quality
description: "Rate the audio quality"
labels:
- Clear
- Slightly noisy
- Very noisy
- Unintelligibleصيغة البيانات النموذجية
أنشئ data/transcripts.json:
{"id": "audio_001", "audio_path": "/audio/recording_001.wav", "asr_transcript": "Hello how are you doing today"}
{"id": "audio_002", "audio_path": "/audio/recording_002.wav", "asr_transcript": "The weather is nice outside"}
{"id": "audio_003", "audio_path": "/audio/recording_003.wav", "asr_transcript": "Please call me back when your free"}إعداد التوسيم الصوتي
يستخدم التوسيم الصوتي في Potato نوع audio_annotation ضمن مخططات التوسيم. يوفر مشغل الصوت عرض الموجة الصوتية وعناصر التحكم في التشغيل تلقائياً.
annotation_schemes:
- annotation_type: audio_annotation
name: audio_player
audio_key: audio_path
description: "Listen to the audio recording"يتضمن مشغل الصوت عناصر تحكم مدمجة للتشغيل/الإيقاف والتنقل وضبط السرعة.
واجهة النسخ الشاملة
annotation_task_name: "ASR Correction and Annotation"
data_files:
- "data/asr_output.json"
item_properties:
id_key: id
text_key: hypothesis
annotation_schemes:
# Audio player
- annotation_type: audio_annotation
name: audio_player
audio_key: audio_url
# Main transcript correction
- annotation_type: text
name: transcript
description: "Correct the transcript below"
textarea: true
rows: 4
required: true
# Speaker identification
- annotation_type: radio
name: num_speakers
description: "How many speakers are in this recording?"
labels:
- "1 speaker"
- "2 speakers"
- "3+ speakers"
- "Cannot determine"
# Audio quality
- annotation_type: radio
name: quality
description: "Overall audio quality"
labels:
- name: Excellent
description: "Crystal clear, studio quality"
- name: Good
description: "Clear speech, minor background noise"
- name: Fair
description: "Understandable but noisy"
- name: Poor
description: "Very difficult to understand"
- name: Unusable
description: "Cannot transcribe accurately"
# Issues checklist
- annotation_type: multiselect
name: issues
description: "Select all issues present (if any)"
labels:
- Background noise
- Overlapping speech
- Accented speech
- Fast speech
- Mumbling/unclear
- Technical audio issues
- Non-English words
- Profanity present
- None
# Confidence
- annotation_type: likert
name: confidence
description: "How confident are you in your transcription?"
size: 5
min_label: "Guessing"
max_label: "Certain"
annotation_guidelines:
title: "Transcription Guidelines"
content: |
## Your Task
Listen to the audio and correct the ASR transcript.
## Transcription Rules
- Transcribe exactly what is said
- Include filler words (um, uh, like)
- Use proper punctuation and capitalization
- Mark unintelligible sections with [unintelligible]
- Mark uncertain words with [word?]
## Special Notations
- [unintelligible] - Cannot understand
- [word?] - Uncertain about word
- [crosstalk] - Overlapping speech
- [noise] - Non-speech sound
- [pause] - Significant silenceالتوسيم على مستوى الكلمة
للتصحيحات التفصيلية على مستوى الكلمة، يمكنك استخدام توسيم النطاق جنباً إلى جنب مع حقول النص:
annotation_schemes:
- annotation_type: audio_annotation
name: audio_player
audio_key: audio_path
- annotation_type: text
name: transcript
textarea: true
- annotation_type: span
name: word_corrections
description: "Mark words that needed correction"
source_field: transcript
labels:
- name: corrected
color: "#FCD34D"
description: "Word was changed"
- name: inserted
color: "#4ADE80"
description: "Word was added"
- name: uncertain
color: "#F87171"
description: "Still not sure"النسخ القائم على المقاطع
للملفات الصوتية الطويلة، يمكنك إعداد بياناتك كمقاطع مع معلومات التوقيت:
data_files:
- "data/segments.json"
item_properties:
id_key: id
text_key: asr_text
annotation_schemes:
- annotation_type: audio_annotation
name: audio_player
audio_key: audio_path
- annotation_type: text
name: transcript
textarea: true
description: "Correct the transcript for this segment"صيغة البيانات مع توقيت المقاطع:
{
"id": "seg_001",
"audio_path": "/audio/long_recording.wav",
"start_time": 0.0,
"end_time": 5.5,
"asr_text": "Welcome to today's presentation"
}صيغة الإخراج
{
"id": "audio_001",
"audio_path": "/audio/recording_001.wav",
"original_transcript": "Hello how are you doing today",
"annotations": {
"transcript": "Hello, how are you doing today?",
"num_speakers": "1 speaker",
"quality": "Good",
"issues": ["None"],
"confidence": 5
},
"annotator": "transcriber_01",
"time_spent_seconds": 45
}ضبط الجودة
يتتبع Potato وقت التوسيم تلقائياً. لضبط الجودة، فكر في تضمين عناصر فحص الانتباه في ملف البيانات الخاص بك - عناصر ذات إجابات صحيحة معروفة يمكنك استخدامها للتحقق من دقة المُوسِّم.
يمكنك تكوين إعدادات الإخراج لتتبع التوسيمات:
output_annotation_dir: "annotation_output"
output_annotation_format: "json"نصائح لمهام النسخ
- سماعات جيدة: ضرورية للدقة
- بيئة هادئة: تقلل الإرهاق
- ضبط السرعة: أبطئ للمقاطع الصعبة
- مرات استماع متعددة: استمع مرة، انسخ، ثم تحقق
- فترات راحة منتظمة: النسخ مُتعب ذهنياً
الخطوات التالية
- أضف تحديد المتحدثين للصوت متعدد المتحدثين
- أعدّ تصنيف المشاعر إلى جانب النسخ
- كوّن التعهيد الجماعي للنسخ على نطاق واسع
وثائق الصوت الكاملة في /docs/features/audio-annotation.