Skip to content
Tutorials5 min read

إعداد مراجعة النسخ الصوتي

تكوين عرض الموجة الصوتية وعناصر التحكم في التشغيل وواجهات تصحيح النص لمهام النسخ الصوتي.

Potato Team·

إعداد مراجعة النسخ الصوتي

مراجعة النسخ ضرورية لبيانات تدريب التعرف التلقائي على الكلام (ASR) عالية الجودة. يوضح هذا الدليل التعليمي كيفية بناء واجهة يمكن للمُوسِّمين من خلالها الاستماع للصوت وعرض الموجات الصوتية وتصحيح النسخ المُولَّدة آلياً.

ما الذي نبنيه

واجهة تتضمن:

  • عرض الموجة الصوتية
  • عناصر التحكم في التشغيل (تشغيل، إيقاف، ضبط السرعة)
  • نص نسخ قابل للتعديل
  • تقييم جودة الصوت
  • تحديد الثقة للمقاطع غير المؤكدة

التكوين الأساسي

yaml
annotation_task_name: "Transcription Review"
 
data_files:
  - "data/transcripts.json"
 
item_properties:
  id_key: id
  text_key: asr_transcript
 
annotation_schemes:
  # Audio playback
  - annotation_type: audio_annotation
    name: audio_player
    audio_key: audio_path
 
  # Corrected transcript
  - annotation_type: text
    name: corrected_transcript
    description: "Edit the transcript to match what you hear"
    textarea: true
    placeholder: "Type the corrected transcript..."
    required: true
 
  # Quality rating
  - annotation_type: radio
    name: audio_quality
    description: "Rate the audio quality"
    labels:
      - Clear
      - Slightly noisy
      - Very noisy
      - Unintelligible

صيغة البيانات النموذجية

أنشئ data/transcripts.json:

json
{"id": "audio_001", "audio_path": "/audio/recording_001.wav", "asr_transcript": "Hello how are you doing today"}
{"id": "audio_002", "audio_path": "/audio/recording_002.wav", "asr_transcript": "The weather is nice outside"}
{"id": "audio_003", "audio_path": "/audio/recording_003.wav", "asr_transcript": "Please call me back when your free"}

إعداد التوسيم الصوتي

يستخدم التوسيم الصوتي في Potato نوع audio_annotation ضمن مخططات التوسيم. يوفر مشغل الصوت عرض الموجة الصوتية وعناصر التحكم في التشغيل تلقائياً.

yaml
annotation_schemes:
  - annotation_type: audio_annotation
    name: audio_player
    audio_key: audio_path
    description: "Listen to the audio recording"

يتضمن مشغل الصوت عناصر تحكم مدمجة للتشغيل/الإيقاف والتنقل وضبط السرعة.

واجهة النسخ الشاملة

yaml
annotation_task_name: "ASR Correction and Annotation"
 
data_files:
  - "data/asr_output.json"
 
item_properties:
  id_key: id
  text_key: hypothesis
 
annotation_schemes:
  # Audio player
  - annotation_type: audio_annotation
    name: audio_player
    audio_key: audio_url
 
  # Main transcript correction
  - annotation_type: text
    name: transcript
    description: "Correct the transcript below"
    textarea: true
    rows: 4
    required: true
 
  # Speaker identification
  - annotation_type: radio
    name: num_speakers
    description: "How many speakers are in this recording?"
    labels:
      - "1 speaker"
      - "2 speakers"
      - "3+ speakers"
      - "Cannot determine"
 
  # Audio quality
  - annotation_type: radio
    name: quality
    description: "Overall audio quality"
    labels:
      - name: Excellent
        description: "Crystal clear, studio quality"
      - name: Good
        description: "Clear speech, minor background noise"
      - name: Fair
        description: "Understandable but noisy"
      - name: Poor
        description: "Very difficult to understand"
      - name: Unusable
        description: "Cannot transcribe accurately"
 
  # Issues checklist
  - annotation_type: multiselect
    name: issues
    description: "Select all issues present (if any)"
    labels:
      - Background noise
      - Overlapping speech
      - Accented speech
      - Fast speech
      - Mumbling/unclear
      - Technical audio issues
      - Non-English words
      - Profanity present
      - None
 
  # Confidence
  - annotation_type: likert
    name: confidence
    description: "How confident are you in your transcription?"
    size: 5
    min_label: "Guessing"
    max_label: "Certain"
 
annotation_guidelines:
  title: "Transcription Guidelines"
  content: |
    ## Your Task
    Listen to the audio and correct the ASR transcript.
 
    ## Transcription Rules
    - Transcribe exactly what is said
    - Include filler words (um, uh, like)
    - Use proper punctuation and capitalization
    - Mark unintelligible sections with [unintelligible]
    - Mark uncertain words with [word?]
 
    ## Special Notations
    - [unintelligible] - Cannot understand
    - [word?] - Uncertain about word
    - [crosstalk] - Overlapping speech
    - [noise] - Non-speech sound
    - [pause] - Significant silence

التوسيم على مستوى الكلمة

للتصحيحات التفصيلية على مستوى الكلمة، يمكنك استخدام توسيم النطاق جنباً إلى جنب مع حقول النص:

yaml
annotation_schemes:
  - annotation_type: audio_annotation
    name: audio_player
    audio_key: audio_path
 
  - annotation_type: text
    name: transcript
    textarea: true
 
  - annotation_type: span
    name: word_corrections
    description: "Mark words that needed correction"
    source_field: transcript
    labels:
      - name: corrected
        color: "#FCD34D"
        description: "Word was changed"
      - name: inserted
        color: "#4ADE80"
        description: "Word was added"
      - name: uncertain
        color: "#F87171"
        description: "Still not sure"

النسخ القائم على المقاطع

للملفات الصوتية الطويلة، يمكنك إعداد بياناتك كمقاطع مع معلومات التوقيت:

yaml
data_files:
  - "data/segments.json"
 
item_properties:
  id_key: id
  text_key: asr_text
 
annotation_schemes:
  - annotation_type: audio_annotation
    name: audio_player
    audio_key: audio_path
 
  - annotation_type: text
    name: transcript
    textarea: true
    description: "Correct the transcript for this segment"

صيغة البيانات مع توقيت المقاطع:

json
{
  "id": "seg_001",
  "audio_path": "/audio/long_recording.wav",
  "start_time": 0.0,
  "end_time": 5.5,
  "asr_text": "Welcome to today's presentation"
}

صيغة الإخراج

json
{
  "id": "audio_001",
  "audio_path": "/audio/recording_001.wav",
  "original_transcript": "Hello how are you doing today",
  "annotations": {
    "transcript": "Hello, how are you doing today?",
    "num_speakers": "1 speaker",
    "quality": "Good",
    "issues": ["None"],
    "confidence": 5
  },
  "annotator": "transcriber_01",
  "time_spent_seconds": 45
}

ضبط الجودة

يتتبع Potato وقت التوسيم تلقائياً. لضبط الجودة، فكر في تضمين عناصر فحص الانتباه في ملف البيانات الخاص بك - عناصر ذات إجابات صحيحة معروفة يمكنك استخدامها للتحقق من دقة المُوسِّم.

يمكنك تكوين إعدادات الإخراج لتتبع التوسيمات:

yaml
output_annotation_dir: "annotation_output"
output_annotation_format: "json"

نصائح لمهام النسخ

  1. سماعات جيدة: ضرورية للدقة
  2. بيئة هادئة: تقلل الإرهاق
  3. ضبط السرعة: أبطئ للمقاطع الصعبة
  4. مرات استماع متعددة: استمع مرة، انسخ، ثم تحقق
  5. فترات راحة منتظمة: النسخ مُتعب ذهنياً

الخطوات التالية


وثائق الصوت الكاملة في /docs/features/audio-annotation.