Koreferenzketten
Textspannen, die auf dieselbe Entität verweisen, für Koreferenzauflösungsaufgaben gruppieren.
Koreferenzketten
Die Koreferenzannotation ermöglicht es Annotatoren, Textspannen zu gruppieren, die auf dieselbe Entität verweisen. Dies ist wesentlich für Entitätsauflösung, Pronomenauflösung und Diskursanalyse.
Überblick
Eine Koreferenzkette ist eine Sammlung von Erwähnungen (Textspannen), die sich alle auf dieselbe reale Entität beziehen. Zum Beispiel:
„Marie Curie war Physikerin. Sie gewann den Nobelpreis. Die Wissenschaftlerin veränderte ihr Fachgebiet für immer."
Die Spannen „Marie Curie", „Sie", „Die Wissenschaftlerin" und „ihr" beziehen sich alle auf dieselbe Person und bilden eine einzelne Koreferenzkette.
Schnellstart
Koreferenzannotation erfordert zwei Schemakomponenten:
- Ein Spannen-Schema zur Erstellung von Erwähnungen
- Ein Koreferenz-Schema zur Gruppierung von Erwähnungen in Ketten
annotation_schemes:
- annotation_type: span
name: mentions
description: Highlight all entity mentions
labels:
- name: MENTION
tooltip: "Any reference to an entity"
sequential_key_binding: true
- annotation_type: coreference
name: coref_chains
description: Group mentions that refer to the same entity
span_schema: mentions
allow_singletons: trueKonfigurationsoptionen
| Feld | Typ | Standard | Beschreibung |
|---|---|---|---|
annotation_type | string | Erforderlich | Muss "coreference" sein |
name | string | Erforderlich | Eindeutiger Bezeichner für dieses Schema |
description | string | Erforderlich | Anweisungen für Annotatoren |
span_schema | string | Erforderlich | Name des Spannen-Schemas, das Erwähnungen liefert |
entity_types | list | [] | Liste der Entitätstypkategorien |
allow_singletons | boolean | true | Ketten mit nur einer Erwähnung erlauben |
visual_display.highlight_mode | string | "background" | Visueller Stil: "background", "bracket" oder "underline" |
Beispiele
Mit Entitätstypen
Ketten nach Entitätstyp klassifizieren:
annotation_schemes:
- annotation_type: span
name: ner
description: Mark named entities
labels:
- name: ENTITY
tooltip: "Any named entity mention"
- annotation_type: coreference
name: coref
description: Create coreference chains
span_schema: ner
entity_types:
- name: PERSON
color: "#6E56CF"
- name: ORGANIZATION
color: "#22C55E"
- name: LOCATION
color: "#3B82F6"
- name: OTHER
color: "#F59E0B"Ohne Singletons
Für Aufgaben, bei denen jede Erwähnung mit mindestens einer anderen verknüpft sein muss:
annotation_schemes:
- annotation_type: span
name: mentions
description: Highlight co-referring mentions
labels:
- name: MENTION
- annotation_type: coreference
name: strict_coref
description: All mentions must be part of a chain with at least 2 mentions
span_schema: mentions
allow_singletons: falseBenutzerdefinierte visuelle Darstellung
annotation_schemes:
- annotation_type: coreference
name: coref
description: Link coreference chains
span_schema: mentions
visual_display:
highlight_mode: "underline" # Options: background, bracket, underlineBenutzeroberfläche
Ketten erstellen
- Erwähnungen erstellen: Das Spannen-Annotationswerkzeug verwenden, um alle Entitätserwähnungen hervorzuheben
- Erwähnungen auswählen: Auf die hervorgehobenen Spannen klicken, die verknüpft werden sollen
- Kette erstellen: Auf „Neue Kette" klicken, um die ausgewählten Erwähnungen zu gruppieren
Ketten verwalten
- Zur Kette hinzufügen: Weitere Erwähnungen auswählen und „Zur Kette hinzufügen" klicken
- Ketten zusammenführen: Mehrere Ketten auswählen und „Ketten zusammenführen" klicken
- Erwähnung entfernen: Eine Erwähnung auswählen und „Erwähnung entfernen" klicken, um sie aus ihrer Kette zu entfernen
Farbkodierung
Jede Kette wird automatisch einer eindeutigen Farbe zugewiesen. Erwähnungen in derselben Kette teilen dieselbe Farbe, was die visuelle Identifikation der Kettenzugehörigkeit erleichtert.
Ausgabeformat
Koreferenzannotationen werden als Spannenverknüpfungen gespeichert:
{
"span_links": [
{
"schema": "coref_chains",
"link_type": "coreference",
"span_ids": ["mentions_0_5_MENTION", "mentions_34_37_MENTION", "mentions_72_85_MENTION"],
"entity_type": "PERSON"
},
{
"schema": "coref_chains",
"link_type": "coreference",
"span_ids": ["mentions_15_23_MENTION", "mentions_95_97_MENTION"],
"entity_type": "ORGANIZATION"
}
]
}Empfohlener Arbeitsablauf
- Erster Durchgang - Text lesen und alle Entitätserwähnungen hervorheben
- Zweiter Durchgang - Erwähnungen in Koreferenzketten gruppieren
- Überprüfung - Sicherstellen, dass alle Erwähnungen korrekt zugeordnet sind und keine Ketten fehlen
Bewährte Vorgehensweisen
- Klare Erwähnungsgrenzen definieren - Richtlinien festlegen, was als Erwähnung gilt
- Verschachtelte Erwähnungen behandeln - Entscheiden, wie Fälle wie „der CEO von Microsoft" behandelt werden
- Generische Referenzen berücksichtigen - Festlegen, ob generische Referenzen einbezogen werden sollen
- Annotatoren schulen - Koreferenz ist komplex; Beispiele und Übungsrunden bereitstellen
- Entitätstypen sparsam verwenden - zu viele können die Annotation verlangsamen ohne die Datenqualität zu verbessern
Weiterführende Lektüre
- Spannen-Annotation - Textspannen erstellen
- Entitätsverknüpfung - Spannen mit Wissensdatenbanken verknüpfen
- Spannenverknüpfung - Andere Arten von Spannenbeziehungen
Implementierungsdetails sind in der Quelldokumentation zu finden.