Skip to content
Cette page n'est pas encore disponible dans votre langue. La version anglaise est affichée.

ऑडियो एनोटेशन

वेवफॉर्म विज़ुअलाइज़ेशन के साथ ऑडियो फ़ाइलों को सेगमेंट करें और समय क्षेत्रों को लेबल असाइन करें।

ऑडियो एनोटेशन

Potato का ऑडियो एनोटेशन टूल एनोटेटर्स को वेवफॉर्म-आधारित इंटरफ़ेस के माध्यम से ऑडियो फ़ाइलों को सेगमेंट करने और समय क्षेत्रों को लेबल असाइन करने में सक्षम बनाता है।

विशेषताएँ

  • वेवफॉर्म विज़ुअलाइज़ेशन
  • समय-आधारित सेगमेंट निर्माण
  • सेगमेंट को लेबल असाइनमेंट
  • परिवर्तनशील गति के साथ प्लेबैक नियंत्रण
  • ज़ूम और स्क्रॉल नेविगेशन
  • कीबोर्ड शॉर्टकट
  • सर्वर-साइड वेवफॉर्म कैशिंग

बुनियादी कॉन्फ़िगरेशन

yaml
annotation_schemes:
  - name: "speakers"
    description: "Mark when each speaker is talking"
    annotation_type: "audio_annotation"
    labels:
      - name: "Speaker 1"
        color: "#3B82F6"
      - name: "Speaker 2"
        color: "#10B981"

कॉन्फ़िगरेशन विकल्प

फ़ील्डप्रकारडिफ़ॉल्टविवरण
namestringआवश्यकएनोटेशन के लिए अद्वितीय पहचानकर्ता
descriptionstringआवश्यकएनोटेटर्स को दिखाए जाने वाले निर्देश
annotation_typestringआवश्यक"audio_annotation" होना चाहिए
modestring"label"एनोटेशन मोड: "label", "questions", या "both"
labelslistसशर्तlabel या both मोड के लिए आवश्यक
segment_schemeslistसशर्तquestions या both मोड के लिए आवश्यक
min_segmentsinteger0न्यूनतम आवश्यक सेगमेंट
max_segmentsintegernullअधिकतम अनुमत सेगमेंट (null = असीमित)
zoom_enabledbooleantrueज़ूम नियंत्रण सक्षम करें
playback_rate_controlbooleanfalseप्लेबैक गति चयनकर्ता दिखाएँ

लेबल कॉन्फ़िगरेशन

yaml
labels:
  - name: "speech"
    color: "#3B82F6"
    key_value: "1"
  - name: "music"
    color: "#10B981"
    key_value: "2"
  - name: "silence"
    color: "#64748B"
    key_value: "3"

एनोटेशन मोड

लेबल मोड (डिफ़ॉल्ट)

सेगमेंट को श्रेणी लेबल मिलते हैं:

yaml
annotation_schemes:
  - name: "emotion"
    description: "Label the emotion in each segment"
    annotation_type: "audio_annotation"
    mode: "label"
    labels:
      - name: "happy"
        color: "#22C55E"
      - name: "sad"
        color: "#3B82F6"
      - name: "angry"
        color: "#EF4444"
      - name: "neutral"
        color: "#64748B"

प्रश्न मोड

प्रत्येक सेगमेंट समर्पित प्रश्नों का उत्तर देता है:

yaml
annotation_schemes:
  - name: "transcription"
    description: "Transcribe each segment"
    annotation_type: "audio_annotation"
    mode: "questions"
    segment_schemes:
      - name: "transcript"
        annotation_type: "text"
        description: "Enter the transcription"
      - name: "confidence"
        annotation_type: "likert"
        description: "How confident are you?"
        size: 5

दोनों मोड

लेबलिंग को प्रति-सेगमेंट प्रश्नावली के साथ संयोजित करता है:

yaml
annotation_schemes:
  - name: "detailed_diarization"
    description: "Label speakers and add notes"
    annotation_type: "audio_annotation"
    mode: "both"
    labels:
      - name: "Speaker A"
        color: "#3B82F6"
      - name: "Speaker B"
        color: "#10B981"
    segment_schemes:
      - name: "notes"
        annotation_type: "text"
        description: "Any notes about this segment?"

वैश्विक ऑडियो कॉन्फ़िगरेशन

अपनी config फ़ाइल में वेवफॉर्म हैंडलिंग कॉन्फ़िगर करें:

yaml
audio_annotation:
  waveform_cache_dir: "waveform_cache/"
  waveform_look_ahead: 5
  waveform_cache_max_size: 1000
  client_fallback_max_duration: 1800
फ़ील्डविवरण
waveform_cache_dirकैश किए गए वेवफॉर्म डेटा के लिए डायरेक्टरी
waveform_look_aheadप्री-कंप्यूट करने के लिए आगामी इंस्टेंस की संख्या
waveform_cache_max_sizeकैश की गई वेवफॉर्म फ़ाइलों की अधिकतम संख्या
client_fallback_max_durationब्राउज़र-साइड वेवफॉर्म जेनरेशन के लिए अधिकतम सेकंड (डिफ़ॉल्ट: 1800)

उदाहरण

स्पीकर डायराइज़ेशन

yaml
annotation_schemes:
  - name: "diarization"
    description: "Identify who is speaking at each moment"
    annotation_type: "audio_annotation"
    mode: "label"
    labels:
      - name: "Interviewer"
        color: "#8B5CF6"
        key_value: "1"
      - name: "Guest"
        color: "#EC4899"
        key_value: "2"
      - name: "Overlap"
        color: "#F59E0B"
        key_value: "3"
    zoom_enabled: true
    playback_rate_control: true

ध्वनि घटना पहचान

yaml
annotation_schemes:
  - name: "sound_events"
    description: "Mark all sound events"
    annotation_type: "audio_annotation"
    labels:
      - name: "speech"
        color: "#3B82F6"
      - name: "music"
        color: "#10B981"
      - name: "applause"
        color: "#F59E0B"
      - name: "laughter"
        color: "#EC4899"
      - name: "silence"
        color: "#64748B"
    min_segments: 1

ट्रांसक्रिप्शन समीक्षा

yaml
annotation_schemes:
  - name: "transcription_review"
    description: "Review and correct the transcription for each segment"
    annotation_type: "audio_annotation"
    mode: "questions"
    segment_schemes:
      - name: "transcript"
        annotation_type: "text"
        description: "Enter or correct the transcription"
        textarea: true
      - name: "quality"
        annotation_type: "radio"
        description: "Audio quality"
        labels:
          - "Clear"
          - "Noisy"
          - "Unintelligible"

कीबोर्ड शॉर्टकट

कुंजीक्रिया
Spaceचलाएँ/रोकें
/ पीछे/आगे जाएँ
[सेगमेंट प्रारंभ चिह्नित करें
]सेगमेंट अंत चिह्नित करें
Enterसेगमेंट बनाएँ
Deleteचयनित सेगमेंट हटाएँ
1-9लेबल चुनें
+ / -ज़ूम इन/आउट
0व्यू फ़िट करें

डेटा फॉर्मेट

इनपुट डेटा

आपकी डेटा फ़ाइल में ऑडियो फ़ाइल पाथ या URL शामिल होने चाहिए:

json
[
  {
    "id": "audio_001",
    "audio_url": "https://example.com/audio/recording1.mp3"
  },
  {
    "id": "audio_002",
    "audio_url": "/data/audio/recording2.wav"
  }
]

ऑडियो फ़ील्ड कॉन्फ़िगर करें:

yaml
item_properties:
  id_key: id
  text_key: audio_url

आउटपुट फॉर्मेट

json
{
  "id": "audio_001",
  "annotations": {
    "diarization": [
      {
        "start": 0.0,
        "end": 5.5,
        "label": "Interviewer"
      },
      {
        "start": 5.5,
        "end": 12.3,
        "label": "Guest"
      },
      {
        "start": 12.3,
        "end": 14.0,
        "label": "Overlap"
      }
    ]
  }
}

प्रश्न मोड के लिए, सेगमेंट में नेस्टेड प्रतिक्रियाएँ शामिल होती हैं:

json
{
  "start": 0.0,
  "end": 5.5,
  "transcript": "Hello and welcome to the show.",
  "quality": "Clear"
}

समर्थित ऑडियो फॉर्मेट

  • MP3 (अनुशंसित)
  • WAV
  • OGG
  • M4A

सर्वोत्तम प्रथाएँ

  1. वेवफॉर्म प्री-कैश करें - बड़े डेटासेट के लिए सर्वर-साइड कैशिंग का उपयोग करें
  2. प्लेबैक नियंत्रण सक्षम करें - परिवर्तनशील गति सटीक सेगमेंटेशन में सहायता करती है
  3. कीबोर्ड शॉर्टकट का उपयोग करें - क्लिक करने से बहुत तेज़
  4. स्पष्ट सीमाएँ परिभाषित करें - निर्दिष्ट करें कि सेगमेंट प्रारंभ/अंत क्या है
  5. उचित मोड चुनें - वर्गीकरण के लिए "label", विस्तृत एनोटेशन के लिए "questions"
  6. सेगमेंट सीमाएँ निर्धारित करें - कवरेज सुनिश्चित करने के लिए min_segments का उपयोग करें