Skip to content
यह पृष्ठ अभी आपकी भाषा में उपलब्ध नहीं है। अंग्रेज़ी संस्करण दिखाया जा रहा है।

Entitätsverknüpfung

Spannen-Annotationen mit externen Wissensdatenbanken wie Wikidata, UMLS oder benutzerdefinierten APIs verknüpfen.

Entitätsverknüpfung

Die Entitätsverknüpfung ermöglicht es Annotatoren, Spannen-Annotationen mit externen Wissensdatenbanken (KBs) wie Wikidata oder UMLS zu verbinden. Dies erstellt semantische Verknüpfungen zwischen Texterwähnungen und kanonischen Entitäten – wertvoll für Named-Entity-Recognition, Konzeptnormalisierung und den Aufbau von Wissensgraphen.

Funktionsweise

Wenn die Entitätsverknüpfung für ein Spannen-Annotationsschema aktiviert ist:

  1. Annotatoren heben Text hervor und weisen eine Beschriftung zu (z. B. „PERSON", „ORGANIZATION")
  2. Ein Verknüpfungssymbol erscheint in der Steuerleiste der Spanne
  3. Durch Klicken auf das Symbol öffnet sich ein Such-Modal, um passende KB-Entitäten zu finden
  4. Die ausgewählte Entitäts-ID wird mit der Spannen-Annotation gespeichert
  5. Verknüpfte Spannen zeigen ein ausgefülltes Symbol und Entitätsdetails beim Überfahren mit der Maus

Schnellstart

Entitätsverknüpfung durch Hinzufügen der entity_linking-Konfiguration zu einem Spannen-Schema aktivieren:

yaml
annotation_schemes:
  - annotation_type: span
    name: ner
    description: Named Entity Recognition with KB linking
    labels:
      - name: PERSON
        tooltip: "People's names"
      - name: ORGANIZATION
        tooltip: "Companies, agencies, institutions"
      - name: LOCATION
        tooltip: "Places, cities, countries"
    entity_linking:
      enabled: true
      knowledge_bases:
        - name: wikidata
          type: wikidata
          language: en

Konfigurationsoptionen

OptionTypStandardBeschreibung
enabledbooleanfalseEntitätsverknüpfung für dieses Schema aktivieren
knowledge_baseslist[]Liste der KB-Konfigurationen
auto_searchbooleantrueAutomatisch suchen, wenn das Modal geöffnet wird
requiredbooleanfalseEntitätsverknüpfung vor dem Speichern der Spanne erfordern
multi_selectbooleanfalseVerknüpfung mit mehreren Entitäten erlauben

Wissensdatenbank-Konfiguration

OptionTypStandardBeschreibung
namestringerforderlichEindeutiger Bezeichner für diese KB
typestringerforderlichKB-Typ: wikidata, umls oder rest
api_keystringnullAPI-Schlüssel für authentifizierte Dienste
base_urlstringnullBasis-URL für REST-APIs
languagestring"en"Sprachcode für Suchergebnisse
timeoutinteger10Anfrage-Timeout in Sekunden

Unterstützte Wissensdatenbanken

Wikidata

Freie, offene Wissensdatenbank mit über 100 Millionen Entitäten. Kein API-Schlüssel erforderlich.

yaml
entity_linking:
  enabled: true
  knowledge_bases:
    - name: wikidata
      type: wikidata
      language: en

Unterstützt mehrsprachige Beschriftungen, Entitätsaliase (z. B. findet „NYC" „New York City") und Links zu Wikipedia-Artikeln.

UMLS

Umfassende medizinische und biomedizinische Terminologie. Erfordert einen kostenlosen API-Schlüssel von UTS.

yaml
entity_linking:
  enabled: true
  knowledge_bases:
    - name: umls
      type: umls
      api_key: ${UMLS_API_KEY}

Umfasst medizinische Konzepte, Medikamente, Krankheiten, Verfahren und Querverweise auf über 200 Quellvokabulare (SNOMED CT, ICD-10, MeSH, RxNorm).

Benutzerdefinierte REST-APIs

Verbindung zu jeder Wissensdatenbank mit einer REST-API:

yaml
entity_linking:
  enabled: true
  knowledge_bases:
    - name: internal_kb
      type: rest
      base_url: https://api.example.com
      api_key: optional_api_key
      extra_params:
        search_endpoint: /search
        entity_endpoint: /entity/{entity_id}
        search_query_param: q
        results_path: data.results
        entity_id_field: id
        label_field: name
        description_field: description

Mehrere Wissensdatenbanken

Mehrere KBs konfigurieren, damit Annotatoren die passendste Quelle wählen können:

yaml
entity_linking:
  enabled: true
  knowledge_bases:
    - name: wikidata
      type: wikidata
      language: en
    - name: umls
      type: umls
      api_key: ${UMLS_API_KEY}
    - name: company_entities
      type: rest
      base_url: https://internal.company.com/api/entities

Ein Dropdown-Menü im Such-Modal ermöglicht Annotatoren das Wechseln zwischen konfigurierten Wissensdatenbanken.

Mehrfachauswahl-Modus

Mehrfachauswahl aktivieren, um eine Spanne mit mehreren Entitäten zu verknüpfen – nützlich bei mehrdeutigen Erwähnungen:

yaml
entity_linking:
  enabled: true
  multi_select: true
  knowledge_bases:
    - name: wikidata
      type: wikidata
      language: en

Datenformat

Entitätsverknüpfte Spannen enthalten zusätzliche Felder in der Ausgabe:

json
{
  "id": "instance_001",
  "text": "Albert Einstein was born in Ulm, Germany in 1879.",
  "annotations": {
    "ner": {
      "spans": [
        {
          "text": "Albert Einstein",
          "start": 0,
          "end": 15,
          "label": "PERSON",
          "kb_id": "Q937",
          "kb_source": "wikidata",
          "kb_label": "Albert Einstein"
        },
        {
          "text": "Ulm",
          "start": 28,
          "end": 31,
          "label": "LOCATION",
          "kb_id": "Q3012",
          "kb_source": "wikidata",
          "kb_label": "Ulm"
        }
      ]
    }
  }
}

Bewährte Vorgehensweisen

  1. Auto-Suche aktivieren für Effizienz – füllt die Suche vorab mit dem Spannentext
  2. Verknüpfung nicht erzwingen, außer wenn unbedingt nötig – Annotation nicht blockieren, wenn Entität nicht gefunden wird
  3. Geeignete Timeouts setzen für langsame Netzwerke
  4. KB zum Entitätstyp passend wählen – Wikidata für allgemeine Entitäten, UMLS für biomedizinische Begriffe, benutzerdefinierte APIs für domänenspezifische Entitäten
  5. Mehrfachauswahl für mehrdeutige Erwähnungen verwenden – Abkürzungen, häufige Namen, polyseme Begriffe

Weiterführende Lektüre

Implementierungsdetails sind in der Quelldokumentation zu finden.