Entity Linking
Span एनोटेशन को Wikidata, UMLS, या कस्टम API जैसे बाहरी knowledge base से जोड़ें।
Entity Linking
Entity linking एनोटेटर्स को span एनोटेशन को बाहरी knowledge base (KB) जैसे Wikidata या UMLS से जोड़ने में सक्षम बनाता है। यह text उल्लेखों और canonical entity के बीच semantic लिंक बनाता है, जो named entity recognition, concept normalization, और knowledge graph निर्माण के लिए मूल्यवान है।
यह कैसे काम करता है
जब span एनोटेशन स्कीमा के लिए entity linking सक्षम होती है:
- एनोटेटर टेक्स्ट हाइलाइट करते हैं और एक लेबल असाइन करते हैं (जैसे, "PERSON", "ORGANIZATION")
- span के control bar पर एक लिंक आइकन दिखाई देता है
- आइकन पर क्लिक करने से मिलान करने वाली KB entity खोजने के लिए एक search modal खुलता है
- चयनित entity ID span एनोटेशन के साथ संग्रहीत होती है
- लिंक किए गए span एक भरा हुआ आइकन प्रदर्शित करते हैं और hover पर entity विवरण दिखाते हैं
त्वरित प्रारंभ
span स्कीमा में entity_linking कॉन्फ़िगरेशन जोड़कर entity linking सक्षम करें:
annotation_schemes:
- annotation_type: span
name: ner
description: Named Entity Recognition with KB linking
labels:
- name: PERSON
tooltip: "People's names"
- name: ORGANIZATION
tooltip: "Companies, agencies, institutions"
- name: LOCATION
tooltip: "Places, cities, countries"
entity_linking:
enabled: true
knowledge_bases:
- name: wikidata
type: wikidata
language: enकॉन्फ़िगरेशन विकल्प
| विकल्प | प्रकार | डिफ़ॉल्ट | विवरण |
|---|---|---|---|
enabled | boolean | false | इस स्कीमा के लिए entity linking सक्षम करें |
knowledge_bases | list | [] | KB कॉन्फ़िगरेशन की सूची |
auto_search | boolean | true | modal खुलने पर स्वचालित रूप से खोजें |
required | boolean | false | span सहेजने से पहले entity link आवश्यक है |
multi_select | boolean | false | कई entity से लिंक करने की अनुमति दें |
Knowledge Base कॉन्फ़िगरेशन
| विकल्प | प्रकार | डिफ़ॉल्ट | विवरण |
|---|---|---|---|
name | string | आवश्यक | इस KB के लिए अद्वितीय पहचानकर्ता |
type | string | आवश्यक | KB प्रकार: wikidata, umls, या rest |
api_key | string | null | प्रमाणित सेवाओं के लिए API key |
base_url | string | null | REST API के लिए Base URL |
language | string | "en" | खोज परिणामों के लिए भाषा कोड |
timeout | integer | 10 | सेकंड में request timeout |
समर्थित Knowledge Bases
Wikidata
100+ मिलियन entity के साथ मुफ्त, खुला knowledge base। कोई API key आवश्यक नहीं।
entity_linking:
enabled: true
knowledge_bases:
- name: wikidata
type: wikidata
language: enबहुभाषी लेबल, entity उपनाम (जैसे, "NYC" "New York City" ढूंढता है), और Wikipedia लेखों के लिंक की सुविधा है।
UMLS
व्यापक चिकित्सा और जैव चिकित्सा शब्दावली। UTS से मुफ्त API key की आवश्यकता है।
entity_linking:
enabled: true
knowledge_bases:
- name: umls
type: umls
api_key: ${UMLS_API_KEY}चिकित्सा अवधारणाओं, दवाओं, बीमारियों, प्रक्रियाओं, और 200+ स्रोत vocabularies (SNOMED CT, ICD-10, MeSH, RxNorm) के क्रॉस-संदर्भ शामिल हैं।
कस्टम REST API
REST API के साथ किसी भी knowledge base से कनेक्ट करें:
entity_linking:
enabled: true
knowledge_bases:
- name: internal_kb
type: rest
base_url: https://api.example.com
api_key: optional_api_key
extra_params:
search_endpoint: /search
entity_endpoint: /entity/{entity_id}
search_query_param: q
results_path: data.results
entity_id_field: id
label_field: name
description_field: descriptionएकाधिक Knowledge Bases
एनोटेटर्स को सबसे उचित स्रोत चुनने देने के लिए कई KB कॉन्फ़िगर करें:
entity_linking:
enabled: true
knowledge_bases:
- name: wikidata
type: wikidata
language: en
- name: umls
type: umls
api_key: ${UMLS_API_KEY}
- name: company_entities
type: rest
base_url: https://internal.company.com/api/entitiessearch modal में एक dropdown एनोटेटर्स को कॉन्फ़िगर किए गए knowledge base के बीच स्विच करने देता है।
Multi-Select मोड
अस्पष्ट उल्लेखों के लिए उपयोगी, एक span को कई entity से जोड़ने की अनुमति देने के लिए multi-select सक्षम करें:
entity_linking:
enabled: true
multi_select: true
knowledge_bases:
- name: wikidata
type: wikidata
language: enडेटा फॉर्मेट
Entity-लिंक किए गए span आउटपुट में अतिरिक्त फ़ील्ड शामिल करते हैं:
{
"id": "instance_001",
"text": "Albert Einstein was born in Ulm, Germany in 1879.",
"annotations": {
"ner": {
"spans": [
{
"text": "Albert Einstein",
"start": 0,
"end": 15,
"label": "PERSON",
"kb_id": "Q937",
"kb_source": "wikidata",
"kb_label": "Albert Einstein"
},
{
"text": "Ulm",
"start": 28,
"end": 31,
"label": "LOCATION",
"kb_id": "Q3012",
"kb_source": "wikidata",
"kb_label": "Ulm"
}
]
}
}
}सर्वोत्तम प्रथाएँ
- दक्षता के लिए auto-search सक्षम करें - span टेक्स्ट के साथ खोज पूर्व-भरता है
- linking आवश्यक न बनाएँ जब तक आवश्यक न हो - यदि entity नहीं मिली तो एनोटेशन को ब्लॉक न करें
- धीमे नेटवर्क के लिए उचित timeout निर्धारित करें
- KB को entity प्रकार से मिलाएँ - सामान्य entity के लिए Wikidata, जैव चिकित्सा शब्दों के लिए UMLS, डोमेन-विशिष्ट entity के लिए कस्टम API का उपयोग करें
- अस्पष्ट उल्लेखों के लिए multi-select का उपयोग करें - संक्षिप्ताक्षर, सामान्य नाम, बहुअर्थी शब्द
अधिक पढ़ें
- Span Annotation - बुनियादी span एनोटेशन सेटअप
- Coreference Chains - Entity उल्लेखों को समूहित करना
- Event Annotation - N-ary event संरचनाएँ
कार्यान्वयन विवरण के लिए, स्रोत दस्तावेज़ीकरण देखें।