التعليق التوضيحي للصوت
التعليق على ملفات الصوت مع عرض الموجة الصوتية وأدوات التحكم في التشغيل.
التعليق التوضيحي للصوت
يوفر Potato 2.0 إمكانيات قوية للتعليق التوضيحي على الصوت مع عرض الموجة الصوتية المدعوم بـ Peaks.js، وتسمية المقاطع، واختصارات لوحة المفاتيح الشاملة.
حالات الاستخدام
- نسخ الكلام ومراجعته
- تمييز المتحدثين (Speaker diarization)
- تحليل الموسيقى
- اكتشاف الأحداث الصوتية
- التعرف على المشاعر في الكلام
- ضمان جودة مراكز الاتصال
تفعيل دعم الصوت
أضف قسم audio_annotation إلى ملف الإعدادات الخاص بك:
annotation_schemes:
- annotation_type: audio
name: audio_segments
description: "Segment and label the audio"
labels:
- Speech
- Music
- Silence
- Noiseأوضاع التشغيل
يدعم Potato ثلاثة أوضاع للتعليق التوضيحي على الصوت:
وضع التسمية
تقسيم الصوت إلى مقاطع وتعيين تسميات فئوية لكل مقطع:
annotation_schemes:
- annotation_type: audio
name: speaker_diarization
mode: label
description: "Identify speakers in the audio"
labels:
- Speaker A
- Speaker B
- Overlap
label_colors:
"Speaker A": "#3b82f6"
"Speaker B": "#10b981"
"Overlap": "#f59e0b"وضع الأسئلة
إضافة أسئلة تعليق توضيحي لكل مقطع:
annotation_schemes:
- annotation_type: audio
name: speech_quality
mode: questions
description: "Evaluate speech segments"
segment_questions:
- name: clarity
type: likert
size: 5
min_label: "Unclear"
max_label: "Very clear"
- name: emotion
type: radio
labels: [Neutral, Happy, Sad, Angry]الوضع المشترك
الجمع بين التسمية وأسئلة كل مقطع:
annotation_schemes:
- annotation_type: audio
name: full_analysis
mode: both
description: "Label and analyze audio segments"
labels:
- Speech
- Music
- Noise
segment_questions:
- name: quality
type: likert
size: 5خيارات الإعدادات
الإعداد الأساسي
annotation_schemes:
- annotation_type: audio
name: segments
description: "Create audio segments"
labels:
- Label A
- Label B
# Optional constraints
min_segments: 1
max_segments: 50اختصارات لوحة المفاتيح
يمكن تعيين التسميات باستخدام مفاتيح الأرقام 1-9:
annotation_schemes:
- annotation_type: audio
name: speakers
labels:
- Speaker A # Press 1
- Speaker B # Press 2
- Overlap # Press 3ألوان التسميات
تخصيص ألوان المقاطع:
annotation_schemes:
- annotation_type: audio
name: segments
labels:
- Speech
- Music
- Silence
label_colors:
"Speech": "#3b82f6"
"Music": "#10b981"
"Silence": "#6b7280"أداء الموجة الصوتية
للحصول على أفضل أداء مع ملفات الصوت الطويلة، قم بتثبيت أداة BBC audiowaveform:
# macOS
brew install audiowaveform
# Ubuntu/Debian
sudo apt-get install audiowaveform
# Or build from source
# https://github.com/bbc/audiowaveformهذا يتيح توليد الموجة الصوتية من جانب الخادم. بدونه، يتم استخدام التوليد من جانب العميل (مناسب للملفات التي تقل مدتها عن 30 دقيقة).
تخزين الموجة الصوتية مؤقتاً
إعداد التخزين المؤقت لأداء أفضل:
audio_config:
cache_dir: "audio_cache/"
precompute_depth: 100 # Pre-generate waveforms for first N items
client_fallback_max_duration: 1800 # 30 minutes in secondsتنسيق البيانات
مرجع صوتي بسيط
[
{"id": "1", "audio_path": "audio/recording_001.wav"},
{"id": "2", "audio_path": "audio/recording_002.wav"}
]data_files:
- "data/audio_data.json"
item_properties:
id_key: id
audio_key: audio_pathمع النصوص المكتوبة
[
{
"id": "1",
"audio_path": "audio/call_001.wav",
"transcript": "Hello, how can I help you today?"
}
]تنسيق المخرجات
يتم حفظ التعليقات التوضيحية مع الطوابع الزمنية للمقاطع:
{
"id": "audio_1",
"annotations": {
"segments": [
{
"start": 0.0,
"end": 2.5,
"label": "Speaker A",
"questions": {
"clarity": 4,
"emotion": "Neutral"
}
},
{
"start": 2.5,
"end": 5.2,
"label": "Speaker B"
}
]
}
}اختصارات لوحة المفاتيح
يوفر Potato اختصارات لوحة مفاتيح شاملة للتعليق التوضيحي الفعّال:
| الاختصار | الإجراء |
|---|---|
Space | تشغيل/إيقاف مؤقت |
[ | تعيين بداية المقطع عند الموضع الحالي |
] | تعيين نهاية المقطع عند الموضع الحالي |
1-9 | تعيين تسمية للمقطع الحالي |
Delete | حذف المقطع الحالي |
Left Arrow | الرجوع 5 ثوانٍ |
Right Arrow | التقدم 5 ثوانٍ |
Up Arrow | تكبير |
Down Arrow | تصغير |
Home | الانتقال إلى البداية |
End | الانتقال إلى النهاية |
+ | زيادة سرعة التشغيل |
- | تقليل سرعة التشغيل |
أمثلة على الإعدادات
تمييز المتحدثين
task_name: "Speaker Diarization"
task_dir: "."
port: 8000
data_files:
- "data/recordings.json"
item_properties:
id_key: id
audio_key: audio_path
annotation_schemes:
- annotation_type: audio
name: speakers
mode: label
description: "Identify who is speaking"
labels:
- Speaker 1
- Speaker 2
- Speaker 3
- Overlap
- Silence
label_colors:
"Speaker 1": "#3b82f6"
"Speaker 2": "#10b981"
"Speaker 3": "#f59e0b"
"Overlap": "#ef4444"
"Silence": "#6b7280"
min_segments: 1
audio_config:
cache_dir: "audio_cache/"
precompute_depth: 50
output_annotation_dir: "output/"
output_annotation_format: "json"
allow_all_users: trueمراجعة النسخ الكتابي
task_name: "Transcription Quality Review"
task_dir: "."
port: 8000
data_files:
- "data/transcripts.json"
item_properties:
id_key: id
text_key: transcript
audio_key: audio_path
annotation_schemes:
- annotation_type: audio
name: errors
mode: questions
description: "Mark transcription errors"
segment_questions:
- name: error_type
type: radio
labels:
- Missing word
- Wrong word
- Extra word
- Spelling error
- name: severity
type: likert
size: 3
min_label: "Minor"
max_label: "Major"
- annotation_type: radio
name: overall_accuracy
description: "Overall transcript accuracy"
labels:
- Accurate
- Minor errors
- Major errors
- Unusable
output_annotation_dir: "output/"
output_annotation_format: "json"ضمان جودة مراكز الاتصال
task_name: "Call Center Quality Assurance"
task_dir: "."
port: 8000
data_files:
- "data/calls.json"
item_properties:
id_key: call_id
audio_key: recording_path
annotation_schemes:
# Segment-level annotation
- annotation_type: audio
name: conversation
mode: both
description: "Segment the conversation"
labels:
- Agent
- Customer
- Hold
- Silence
segment_questions:
- name: sentiment
type: radio
labels: [Positive, Neutral, Negative, Frustrated]
# Call-level assessment
- annotation_type: likert
name: professionalism
description: "Agent professionalism"
size: 5
min_label: "Poor"
max_label: "Excellent"
- annotation_type: likert
name: resolution
description: "Issue resolution"
size: 5
min_label: "Unresolved"
max_label: "Fully resolved"
- annotation_type: multiselect
name: issues
description: "Select any issues observed"
labels:
- Long hold time
- Agent interrupted
- Incorrect information
- Missing greeting
- Unprofessional language
- annotation_type: text
name: notes
description: "Additional observations"
textarea: true
output_annotation_dir: "output/"
output_annotation_format: "json"صيغ الصوت المدعومة
- WAV (يُنصح به لأفضل جودة)
- MP3
- OGG
- FLAC
- M4A
- WebM
نصائح الأداء
- تثبيت audiowaveform - ضروري لملفات الصوت الطويلة
- تفعيل التخزين المؤقت - استخدم
cache_dirلتخزين الموجات الصوتية المولّدة مسبقاً - استخدام WAV للجودة - الصيغ المضغوطة قد تُحدث تشوهات
- معالجة الصوت مسبقاً - تطبيع المستويات وقص الصمت غير الضروري
- مراعاة أحجام الملفات - الملفات الكبيرة تبطئ التحميل
- استخدام الحساب المسبق - توليد الموجات الصوتية مسبقاً للعناصر الأولى
استكشاف الأخطاء وإصلاحها
الموجة الصوتية لا تُحمَّل
- تحقق من صحة مسار ملف الصوت
- تأكد من أن صيغة الملف مدعومة
- قم بتثبيت audiowaveform للملفات الطويلة
- تحقق من وحدة تحكم المتصفح بحثاً عن الأخطاء
أداء بطيء
- قم بتثبيت أداة audiowaveform
- فعّل التخزين المؤقت للموجة الصوتية
- قلّل أحجام ملفات الصوت
- استخدم إعداد
precompute_depth
المقاطع لا تُحفظ
- تأكد من أن مجلد المخرجات قابل للكتابة
- تحقق من إعدادات تنسيق التعليق التوضيحي
- تأكد من أن المقطع يحتوي على وقت بداية ونهاية