このページはまだお使いの言語に翻訳されていません。英語版を表示しています。
ऑडियो एनोटेशन
वेवफॉर्म विज़ुअलाइज़ेशन के साथ ऑडियो फ़ाइलों को सेगमेंट करें और समय क्षेत्रों को लेबल असाइन करें।
ऑडियो एनोटेशन
Potato का ऑडियो एनोटेशन टूल एनोटेटर्स को वेवफॉर्म-आधारित इंटरफ़ेस के माध्यम से ऑडियो फ़ाइलों को सेगमेंट करने और समय क्षेत्रों को लेबल असाइन करने में सक्षम बनाता है।
विशेषताएँ
- वेवफॉर्म विज़ुअलाइज़ेशन
- समय-आधारित सेगमेंट निर्माण
- सेगमेंट को लेबल असाइनमेंट
- परिवर्तनशील गति के साथ प्लेबैक नियंत्रण
- ज़ूम और स्क्रॉल नेविगेशन
- कीबोर्ड शॉर्टकट
- सर्वर-साइड वेवफॉर्म कैशिंग
बुनियादी कॉन्फ़िगरेशन
yaml
annotation_schemes:
- name: "speakers"
description: "Mark when each speaker is talking"
annotation_type: "audio_annotation"
labels:
- name: "Speaker 1"
color: "#3B82F6"
- name: "Speaker 2"
color: "#10B981"कॉन्फ़िगरेशन विकल्प
| फ़ील्ड | प्रकार | डिफ़ॉल्ट | विवरण |
|---|---|---|---|
name | string | आवश्यक | एनोटेशन के लिए अद्वितीय पहचानकर्ता |
description | string | आवश्यक | एनोटेटर्स को दिखाए जाने वाले निर्देश |
annotation_type | string | आवश्यक | "audio_annotation" होना चाहिए |
mode | string | "label" | एनोटेशन मोड: "label", "questions", या "both" |
labels | list | सशर्त | label या both मोड के लिए आवश्यक |
segment_schemes | list | सशर्त | questions या both मोड के लिए आवश्यक |
min_segments | integer | 0 | न्यूनतम आवश्यक सेगमेंट |
max_segments | integer | null | अधिकतम अनुमत सेगमेंट (null = असीमित) |
zoom_enabled | boolean | true | ज़ूम नियंत्रण सक्षम करें |
playback_rate_control | boolean | false | प्लेबैक गति चयनकर्ता दिखाएँ |
लेबल कॉन्फ़िगरेशन
yaml
labels:
- name: "speech"
color: "#3B82F6"
key_value: "1"
- name: "music"
color: "#10B981"
key_value: "2"
- name: "silence"
color: "#64748B"
key_value: "3"एनोटेशन मोड
लेबल मोड (डिफ़ॉल्ट)
सेगमेंट को श्रेणी लेबल मिलते हैं:
yaml
annotation_schemes:
- name: "emotion"
description: "Label the emotion in each segment"
annotation_type: "audio_annotation"
mode: "label"
labels:
- name: "happy"
color: "#22C55E"
- name: "sad"
color: "#3B82F6"
- name: "angry"
color: "#EF4444"
- name: "neutral"
color: "#64748B"प्रश्न मोड
प्रत्येक सेगमेंट समर्पित प्रश्नों का उत्तर देता है:
yaml
annotation_schemes:
- name: "transcription"
description: "Transcribe each segment"
annotation_type: "audio_annotation"
mode: "questions"
segment_schemes:
- name: "transcript"
annotation_type: "text"
description: "Enter the transcription"
- name: "confidence"
annotation_type: "likert"
description: "How confident are you?"
size: 5दोनों मोड
लेबलिंग को प्रति-सेगमेंट प्रश्नावली के साथ संयोजित करता है:
yaml
annotation_schemes:
- name: "detailed_diarization"
description: "Label speakers and add notes"
annotation_type: "audio_annotation"
mode: "both"
labels:
- name: "Speaker A"
color: "#3B82F6"
- name: "Speaker B"
color: "#10B981"
segment_schemes:
- name: "notes"
annotation_type: "text"
description: "Any notes about this segment?"वैश्विक ऑडियो कॉन्फ़िगरेशन
अपनी config फ़ाइल में वेवफॉर्म हैंडलिंग कॉन्फ़िगर करें:
yaml
audio_annotation:
waveform_cache_dir: "waveform_cache/"
waveform_look_ahead: 5
waveform_cache_max_size: 1000
client_fallback_max_duration: 1800| फ़ील्ड | विवरण |
|---|---|
waveform_cache_dir | कैश किए गए वेवफॉर्म डेटा के लिए डायरेक्टरी |
waveform_look_ahead | प्री-कंप्यूट करने के लिए आगामी इंस्टेंस की संख्या |
waveform_cache_max_size | कैश की गई वेवफॉर्म फ़ाइलों की अधिकतम संख्या |
client_fallback_max_duration | ब्राउज़र-साइड वेवफॉर्म जेनरेशन के लिए अधिकतम सेकंड (डिफ़ॉल्ट: 1800) |
उदाहरण
स्पीकर डायराइज़ेशन
yaml
annotation_schemes:
- name: "diarization"
description: "Identify who is speaking at each moment"
annotation_type: "audio_annotation"
mode: "label"
labels:
- name: "Interviewer"
color: "#8B5CF6"
key_value: "1"
- name: "Guest"
color: "#EC4899"
key_value: "2"
- name: "Overlap"
color: "#F59E0B"
key_value: "3"
zoom_enabled: true
playback_rate_control: trueध्वनि घटना पहचान
yaml
annotation_schemes:
- name: "sound_events"
description: "Mark all sound events"
annotation_type: "audio_annotation"
labels:
- name: "speech"
color: "#3B82F6"
- name: "music"
color: "#10B981"
- name: "applause"
color: "#F59E0B"
- name: "laughter"
color: "#EC4899"
- name: "silence"
color: "#64748B"
min_segments: 1ट्रांसक्रिप्शन समीक्षा
yaml
annotation_schemes:
- name: "transcription_review"
description: "Review and correct the transcription for each segment"
annotation_type: "audio_annotation"
mode: "questions"
segment_schemes:
- name: "transcript"
annotation_type: "text"
description: "Enter or correct the transcription"
textarea: true
- name: "quality"
annotation_type: "radio"
description: "Audio quality"
labels:
- "Clear"
- "Noisy"
- "Unintelligible"कीबोर्ड शॉर्टकट
| कुंजी | क्रिया |
|---|---|
Space | चलाएँ/रोकें |
← / → | पीछे/आगे जाएँ |
[ | सेगमेंट प्रारंभ चिह्नित करें |
] | सेगमेंट अंत चिह्नित करें |
Enter | सेगमेंट बनाएँ |
Delete | चयनित सेगमेंट हटाएँ |
1-9 | लेबल चुनें |
+ / - | ज़ूम इन/आउट |
0 | व्यू फ़िट करें |
डेटा फॉर्मेट
इनपुट डेटा
आपकी डेटा फ़ाइल में ऑडियो फ़ाइल पाथ या URL शामिल होने चाहिए:
json
[
{
"id": "audio_001",
"audio_url": "https://example.com/audio/recording1.mp3"
},
{
"id": "audio_002",
"audio_url": "/data/audio/recording2.wav"
}
]ऑडियो फ़ील्ड कॉन्फ़िगर करें:
yaml
item_properties:
id_key: id
text_key: audio_urlआउटपुट फॉर्मेट
json
{
"id": "audio_001",
"annotations": {
"diarization": [
{
"start": 0.0,
"end": 5.5,
"label": "Interviewer"
},
{
"start": 5.5,
"end": 12.3,
"label": "Guest"
},
{
"start": 12.3,
"end": 14.0,
"label": "Overlap"
}
]
}
}प्रश्न मोड के लिए, सेगमेंट में नेस्टेड प्रतिक्रियाएँ शामिल होती हैं:
json
{
"start": 0.0,
"end": 5.5,
"transcript": "Hello and welcome to the show.",
"quality": "Clear"
}समर्थित ऑडियो फॉर्मेट
- MP3 (अनुशंसित)
- WAV
- OGG
- M4A
सर्वोत्तम प्रथाएँ
- वेवफॉर्म प्री-कैश करें - बड़े डेटासेट के लिए सर्वर-साइड कैशिंग का उपयोग करें
- प्लेबैक नियंत्रण सक्षम करें - परिवर्तनशील गति सटीक सेगमेंटेशन में सहायता करती है
- कीबोर्ड शॉर्टकट का उपयोग करें - क्लिक करने से बहुत तेज़
- स्पष्ट सीमाएँ परिभाषित करें - निर्दिष्ट करें कि सेगमेंट प्रारंभ/अंत क्या है
- उचित मोड चुनें - वर्गीकरण के लिए "label", विस्तृत एनोटेशन के लिए "questions"
- सेगमेंट सीमाएँ निर्धारित करें - कवरेज सुनिश्चित करने के लिए
min_segmentsका उपयोग करें