このページはまだお使いの言語に翻訳されていません。英語版を表示しています。

ऑडियो एनोटेशन

वेवफॉर्म विज़ुअलाइज़ेशन के साथ ऑडियो फ़ाइलों को सेगमेंट करें और समय क्षेत्रों को लेबल असाइन करें।

ऑडियो एनोटेशन

Potato का ऑडियो एनोटेशन टूल एनोटेटर्स को वेवफॉर्म-आधारित इंटरफ़ेस के माध्यम से ऑडियो फ़ाइलों को सेगमेंट करने और समय क्षेत्रों को लेबल असाइन करने में सक्षम बनाता है।

विशेषताएँ

वेवफॉर्म विज़ुअलाइज़ेशन
समय-आधारित सेगमेंट निर्माण
सेगमेंट को लेबल असाइनमेंट
परिवर्तनशील गति के साथ प्लेबैक नियंत्रण
ज़ूम और स्क्रॉल नेविगेशन
कीबोर्ड शॉर्टकट
सर्वर-साइड वेवफॉर्म कैशिंग

बुनियादी कॉन्फ़िगरेशन

yaml

annotation_schemes:
  - name: "speakers"
    description: "Mark when each speaker is talking"
    annotation_type: "audio_annotation"
    labels:
      - name: "Speaker 1"
        color: "#3B82F6"
      - name: "Speaker 2"
        color: "#10B981"

कॉन्फ़िगरेशन विकल्प

फ़ील्ड	प्रकार	डिफ़ॉल्ट	विवरण
`name`	string	आवश्यक	एनोटेशन के लिए अद्वितीय पहचानकर्ता
`description`	string	आवश्यक	एनोटेटर्स को दिखाए जाने वाले निर्देश
`annotation_type`	string	आवश्यक	`"audio_annotation"` होना चाहिए
`mode`	string	`"label"`	एनोटेशन मोड: `"label"`, `"questions"`, या `"both"`
`labels`	list	सशर्त	`label` या `both` मोड के लिए आवश्यक
`segment_schemes`	list	सशर्त	`questions` या `both` मोड के लिए आवश्यक
`min_segments`	integer	0	न्यूनतम आवश्यक सेगमेंट
`max_segments`	integer	null	अधिकतम अनुमत सेगमेंट (null = असीमित)
`zoom_enabled`	boolean	true	ज़ूम नियंत्रण सक्षम करें
`playback_rate_control`	boolean	false	प्लेबैक गति चयनकर्ता दिखाएँ

लेबल कॉन्फ़िगरेशन

yaml

labels:
  - name: "speech"
    color: "#3B82F6"
    key_value: "1"
  - name: "music"
    color: "#10B981"
    key_value: "2"
  - name: "silence"
    color: "#64748B"
    key_value: "3"

एनोटेशन मोड

लेबल मोड (डिफ़ॉल्ट)

सेगमेंट को श्रेणी लेबल मिलते हैं:

yaml

annotation_schemes:
  - name: "emotion"
    description: "Label the emotion in each segment"
    annotation_type: "audio_annotation"
    mode: "label"
    labels:
      - name: "happy"
        color: "#22C55E"
      - name: "sad"
        color: "#3B82F6"
      - name: "angry"
        color: "#EF4444"
      - name: "neutral"
        color: "#64748B"

प्रश्न मोड

प्रत्येक सेगमेंट समर्पित प्रश्नों का उत्तर देता है:

yaml

annotation_schemes:
  - name: "transcription"
    description: "Transcribe each segment"
    annotation_type: "audio_annotation"
    mode: "questions"
    segment_schemes:
      - name: "transcript"
        annotation_type: "text"
        description: "Enter the transcription"
      - name: "confidence"
        annotation_type: "likert"
        description: "How confident are you?"
        size: 5

दोनों मोड

लेबलिंग को प्रति-सेगमेंट प्रश्नावली के साथ संयोजित करता है:

yaml

annotation_schemes:
  - name: "detailed_diarization"
    description: "Label speakers and add notes"
    annotation_type: "audio_annotation"
    mode: "both"
    labels:
      - name: "Speaker A"
        color: "#3B82F6"
      - name: "Speaker B"
        color: "#10B981"
    segment_schemes:
      - name: "notes"
        annotation_type: "text"
        description: "Any notes about this segment?"

वैश्विक ऑडियो कॉन्फ़िगरेशन

अपनी config फ़ाइल में वेवफॉर्म हैंडलिंग कॉन्फ़िगर करें:

yaml

audio_annotation:
  waveform_cache_dir: "waveform_cache/"
  waveform_look_ahead: 5
  waveform_cache_max_size: 1000
  client_fallback_max_duration: 1800

फ़ील्ड	विवरण
`waveform_cache_dir`	कैश किए गए वेवफॉर्म डेटा के लिए डायरेक्टरी
`waveform_look_ahead`	प्री-कंप्यूट करने के लिए आगामी इंस्टेंस की संख्या
`waveform_cache_max_size`	कैश की गई वेवफॉर्म फ़ाइलों की अधिकतम संख्या
`client_fallback_max_duration`	ब्राउज़र-साइड वेवफॉर्म जेनरेशन के लिए अधिकतम सेकंड (डिफ़ॉल्ट: 1800)

उदाहरण

स्पीकर डायराइज़ेशन

yaml

annotation_schemes:
  - name: "diarization"
    description: "Identify who is speaking at each moment"
    annotation_type: "audio_annotation"
    mode: "label"
    labels:
      - name: "Interviewer"
        color: "#8B5CF6"
        key_value: "1"
      - name: "Guest"
        color: "#EC4899"
        key_value: "2"
      - name: "Overlap"
        color: "#F59E0B"
        key_value: "3"
    zoom_enabled: true
    playback_rate_control: true

ध्वनि घटना पहचान

yaml

annotation_schemes:
  - name: "sound_events"
    description: "Mark all sound events"
    annotation_type: "audio_annotation"
    labels:
      - name: "speech"
        color: "#3B82F6"
      - name: "music"
        color: "#10B981"
      - name: "applause"
        color: "#F59E0B"
      - name: "laughter"
        color: "#EC4899"
      - name: "silence"
        color: "#64748B"
    min_segments: 1

ट्रांसक्रिप्शन समीक्षा

yaml

annotation_schemes:
  - name: "transcription_review"
    description: "Review and correct the transcription for each segment"
    annotation_type: "audio_annotation"
    mode: "questions"
    segment_schemes:
      - name: "transcript"
        annotation_type: "text"
        description: "Enter or correct the transcription"
        textarea: true
      - name: "quality"
        annotation_type: "radio"
        description: "Audio quality"
        labels:
          - "Clear"
          - "Noisy"
          - "Unintelligible"

कीबोर्ड शॉर्टकट

कुंजी	क्रिया
`Space`	चलाएँ/रोकें
`←` / `→`	पीछे/आगे जाएँ
`[`	सेगमेंट प्रारंभ चिह्नित करें
`]`	सेगमेंट अंत चिह्नित करें
`Enter`	सेगमेंट बनाएँ
`Delete`	चयनित सेगमेंट हटाएँ
`1-9`	लेबल चुनें
`+` / `-`	ज़ूम इन/आउट
`0`	व्यू फ़िट करें

डेटा फॉर्मेट

इनपुट डेटा

आपकी डेटा फ़ाइल में ऑडियो फ़ाइल पाथ या URL शामिल होने चाहिए:

json

[
  {
    "id": "audio_001",
    "audio_url": "https://example.com/audio/recording1.mp3"
  },
  {
    "id": "audio_002",
    "audio_url": "/data/audio/recording2.wav"
  }
]

ऑडियो फ़ील्ड कॉन्फ़िगर करें:

yaml

item_properties:
  id_key: id
  text_key: audio_url

आउटपुट फॉर्मेट

json

{
  "id": "audio_001",
  "annotations": {
    "diarization": [
      {
        "start": 0.0,
        "end": 5.5,
        "label": "Interviewer"
      },
      {
        "start": 5.5,
        "end": 12.3,
        "label": "Guest"
      },
      {
        "start": 12.3,
        "end": 14.0,
        "label": "Overlap"
      }
    ]
  }
}

प्रश्न मोड के लिए, सेगमेंट में नेस्टेड प्रतिक्रियाएँ शामिल होती हैं:

json

{
  "start": 0.0,
  "end": 5.5,
  "transcript": "Hello and welcome to the show.",
  "quality": "Clear"
}

समर्थित ऑडियो फॉर्मेट

MP3 (अनुशंसित)
WAV
OGG
M4A

सर्वोत्तम प्रथाएँ

वेवफॉर्म प्री-कैश करें - बड़े डेटासेट के लिए सर्वर-साइड कैशिंग का उपयोग करें
प्लेबैक नियंत्रण सक्षम करें - परिवर्तनशील गति सटीक सेगमेंटेशन में सहायता करती है
कीबोर्ड शॉर्टकट का उपयोग करें - क्लिक करने से बहुत तेज़
स्पष्ट सीमाएँ परिभाषित करें - निर्दिष्ट करें कि सेगमेंट प्रारंभ/अंत क्या है
उचित मोड चुनें - वर्गीकरण के लिए "label", विस्तृत एनोटेशन के लिए "questions"
सेगमेंट सीमाएँ निर्धारित करें - कवरेज सुनिश्चित करने के लिए min_segments का उपयोग करें