Diese Seite ist in Ihrer Sprache noch nicht verfügbar. Englische Version wird angezeigt.
ऑडियो एनोटेशन
वेवफॉर्म विज़ुअलाइज़ेशन के साथ ऑडियो फ़ाइलों को सेगमेंट करें और समय क्षेत्रों को लेबल असाइन करें।
ऑडियो एनोटेशन
Potato का ऑडियो एनोटेशन टूल एनोटेटर्स को वेवफॉर्म-आधारित इंटरफ़ेस के माध्यम से ऑडियो फ़ाइलों को सेगमेंट करने और समय क्षेत्रों को लेबल असाइन करने में सक्षम बनाता है।
विशेषताएँ
- वेवफॉर्म विज़ुअलाइज़ेशन
- समय-आधारित सेगमेंट निर्माण
- सेगमेंट को लेबल असाइनमेंट
- परिवर्तनशील गति के साथ प्लेबैक नियंत्रण
- ज़ूम और स्क्रॉल नेविगेशन
- कीबोर्ड शॉर्टकट
- सर्वर-साइड वेवफॉर्म कैशिंग
बुनियादी कॉन्फ़िगरेशन
yaml
annotation_schemes:
- name: "speakers"
description: "Mark when each speaker is talking"
annotation_type: "audio_annotation"
labels:
- name: "Speaker 1"
color: "#3B82F6"
- name: "Speaker 2"
color: "#10B981"कॉन्फ़िगरेशन विकल्प
| फ़ील्ड | प्रकार | डिफ़ॉल्ट | विवरण |
|---|---|---|---|
name | string | आवश्यक | एनोटेशन के लिए अद्वितीय पहचानकर्ता |
description | string | आवश्यक | एनोटेटर्स को दिखाए जाने वाले निर्देश |
annotation_type | string | आवश्यक | "audio_annotation" होना चाहिए |
mode | string | "label" | एनोटेशन मोड: "label", "questions", या "both" |
labels | list | सशर्त | label या both मोड के लिए आवश्यक |
segment_schemes | list | सशर्त | questions या both मोड के लिए आवश्यक |
min_segments | integer | 0 | न्यूनतम आवश्यक सेगमेंट |
max_segments | integer | null | अधिकतम अनुमत सेगमेंट (null = असीमित) |
zoom_enabled | boolean | true | ज़ूम नियंत्रण सक्षम करें |
playback_rate_control | boolean | false | प्लेबैक गति चयनकर्ता दिखाएँ |
लेबल कॉन्फ़िगरेशन
yaml
labels:
- name: "speech"
color: "#3B82F6"
key_value: "1"
- name: "music"
color: "#10B981"
key_value: "2"
- name: "silence"
color: "#64748B"
key_value: "3"एनोटेशन मोड
लेबल मोड (डिफ़ॉल्ट)
सेगमेंट को श्रेणी लेबल मिलते हैं:
yaml
annotation_schemes:
- name: "emotion"
description: "Label the emotion in each segment"
annotation_type: "audio_annotation"
mode: "label"
labels:
- name: "happy"
color: "#22C55E"
- name: "sad"
color: "#3B82F6"
- name: "angry"
color: "#EF4444"
- name: "neutral"
color: "#64748B"प्रश्न मोड
प्रत्येक सेगमेंट समर्पित प्रश्नों का उत्तर देता है:
yaml
annotation_schemes:
- name: "transcription"
description: "Transcribe each segment"
annotation_type: "audio_annotation"
mode: "questions"
segment_schemes:
- name: "transcript"
annotation_type: "text"
description: "Enter the transcription"
- name: "confidence"
annotation_type: "likert"
description: "How confident are you?"
size: 5दोनों मोड
लेबलिंग को प्रति-सेगमेंट प्रश्नावली के साथ संयोजित करता है:
yaml
annotation_schemes:
- name: "detailed_diarization"
description: "Label speakers and add notes"
annotation_type: "audio_annotation"
mode: "both"
labels:
- name: "Speaker A"
color: "#3B82F6"
- name: "Speaker B"
color: "#10B981"
segment_schemes:
- name: "notes"
annotation_type: "text"
description: "Any notes about this segment?"वैश्विक ऑडियो कॉन्फ़िगरेशन
अपनी config फ़ाइल में वेवफॉर्म हैंडलिंग कॉन्फ़िगर करें:
yaml
audio_annotation:
waveform_cache_dir: "waveform_cache/"
waveform_look_ahead: 5
waveform_cache_max_size: 1000
client_fallback_max_duration: 1800| फ़ील्ड | विवरण |
|---|---|
waveform_cache_dir | कैश किए गए वेवफॉर्म डेटा के लिए डायरेक्टरी |
waveform_look_ahead | प्री-कंप्यूट करने के लिए आगामी इंस्टेंस की संख्या |
waveform_cache_max_size | कैश की गई वेवफॉर्म फ़ाइलों की अधिकतम संख्या |
client_fallback_max_duration | ब्राउज़र-साइड वेवफॉर्म जेनरेशन के लिए अधिकतम सेकंड (डिफ़ॉल्ट: 1800) |
उदाहरण
स्पीकर डायराइज़ेशन
yaml
annotation_schemes:
- name: "diarization"
description: "Identify who is speaking at each moment"
annotation_type: "audio_annotation"
mode: "label"
labels:
- name: "Interviewer"
color: "#8B5CF6"
key_value: "1"
- name: "Guest"
color: "#EC4899"
key_value: "2"
- name: "Overlap"
color: "#F59E0B"
key_value: "3"
zoom_enabled: true
playback_rate_control: trueध्वनि घटना पहचान
yaml
annotation_schemes:
- name: "sound_events"
description: "Mark all sound events"
annotation_type: "audio_annotation"
labels:
- name: "speech"
color: "#3B82F6"
- name: "music"
color: "#10B981"
- name: "applause"
color: "#F59E0B"
- name: "laughter"
color: "#EC4899"
- name: "silence"
color: "#64748B"
min_segments: 1ट्रांसक्रिप्शन समीक्षा
yaml
annotation_schemes:
- name: "transcription_review"
description: "Review and correct the transcription for each segment"
annotation_type: "audio_annotation"
mode: "questions"
segment_schemes:
- name: "transcript"
annotation_type: "text"
description: "Enter or correct the transcription"
textarea: true
- name: "quality"
annotation_type: "radio"
description: "Audio quality"
labels:
- "Clear"
- "Noisy"
- "Unintelligible"कीबोर्ड शॉर्टकट
| कुंजी | क्रिया |
|---|---|
Space | चलाएँ/रोकें |
← / → | पीछे/आगे जाएँ |
[ | सेगमेंट प्रारंभ चिह्नित करें |
] | सेगमेंट अंत चिह्नित करें |
Enter | सेगमेंट बनाएँ |
Delete | चयनित सेगमेंट हटाएँ |
1-9 | लेबल चुनें |
+ / - | ज़ूम इन/आउट |
0 | व्यू फ़िट करें |
डेटा फॉर्मेट
इनपुट डेटा
आपकी डेटा फ़ाइल में ऑडियो फ़ाइल पाथ या URL शामिल होने चाहिए:
json
[
{
"id": "audio_001",
"audio_url": "https://example.com/audio/recording1.mp3"
},
{
"id": "audio_002",
"audio_url": "/data/audio/recording2.wav"
}
]ऑडियो फ़ील्ड कॉन्फ़िगर करें:
yaml
item_properties:
id_key: id
text_key: audio_urlआउटपुट फॉर्मेट
json
{
"id": "audio_001",
"annotations": {
"diarization": [
{
"start": 0.0,
"end": 5.5,
"label": "Interviewer"
},
{
"start": 5.5,
"end": 12.3,
"label": "Guest"
},
{
"start": 12.3,
"end": 14.0,
"label": "Overlap"
}
]
}
}प्रश्न मोड के लिए, सेगमेंट में नेस्टेड प्रतिक्रियाएँ शामिल होती हैं:
json
{
"start": 0.0,
"end": 5.5,
"transcript": "Hello and welcome to the show.",
"quality": "Clear"
}समर्थित ऑडियो फॉर्मेट
- MP3 (अनुशंसित)
- WAV
- OGG
- M4A
सर्वोत्तम प्रथाएँ
- वेवफॉर्म प्री-कैश करें - बड़े डेटासेट के लिए सर्वर-साइड कैशिंग का उपयोग करें
- प्लेबैक नियंत्रण सक्षम करें - परिवर्तनशील गति सटीक सेगमेंटेशन में सहायता करती है
- कीबोर्ड शॉर्टकट का उपयोग करें - क्लिक करने से बहुत तेज़
- स्पष्ट सीमाएँ परिभाषित करें - निर्दिष्ट करें कि सेगमेंट प्रारंभ/अंत क्या है
- उचित मोड चुनें - वर्गीकरण के लिए "label", विस्तृत एनोटेशन के लिए "questions"
- सेगमेंट सीमाएँ निर्धारित करें - कवरेज सुनिश्चित करने के लिए
min_segmentsका उपयोग करें