Catene di coreferenza
Raggruppa span di testo che si riferiscono alla stessa entità per compiti di risoluzione della coreferenza.
Catene di coreferenza
L'annotazione della coreferenza consente agli annotatori di raggruppare span di testo che si riferiscono alla stessa entità. Questo è essenziale per la risoluzione delle entità, la risoluzione dei pronomi e l'analisi del discorso.
Panoramica
Una catena di coreferenza è una raccolta di menzioni (span di testo) che si riferiscono tutte alla stessa entità del mondo reale. Per esempio:
"Marie Curie era una fisica. Lei vinse il Premio Nobel. La scienziata cambiò il suo campo per sempre."
Gli span "Marie Curie", "Lei", "La scienziata" e "il suo" si riferiscono tutti alla stessa persona e formano un'unica catena di coreferenza.
Avvio rapido
L'annotazione della coreferenza richiede due componenti dello schema:
- Uno schema span per la creazione delle menzioni
- Uno schema coreference per raggruppare le menzioni in catene
annotation_schemes:
- annotation_type: span
name: mentions
description: Highlight all entity mentions
labels:
- name: MENTION
tooltip: "Any reference to an entity"
sequential_key_binding: true
- annotation_type: coreference
name: coref_chains
description: Group mentions that refer to the same entity
span_schema: mentions
allow_singletons: trueOpzioni di configurazione
| Campo | Tipo | Predefinito | Descrizione |
|---|---|---|---|
annotation_type | string | Obbligatorio | Deve essere "coreference" |
name | string | Obbligatorio | Identificatore univoco per questo schema |
description | string | Obbligatorio | Istruzioni visualizzate agli annotatori |
span_schema | string | Obbligatorio | Nome dello schema span che fornisce le menzioni |
entity_types | list | [] | Elenco delle categorie di tipi di entità |
allow_singletons | boolean | true | Consente catene con una sola menzione |
visual_display.highlight_mode | string | "background" | Stile visivo: "background", "bracket" o "underline" |
Esempi
Con tipi di entità
Classifica le catene per tipo di entità:
annotation_schemes:
- annotation_type: span
name: ner
description: Mark named entities
labels:
- name: ENTITY
tooltip: "Any named entity mention"
- annotation_type: coreference
name: coref
description: Create coreference chains
span_schema: ner
entity_types:
- name: PERSON
color: "#6E56CF"
- name: ORGANIZATION
color: "#22C55E"
- name: LOCATION
color: "#3B82F6"
- name: OTHER
color: "#F59E0B"Senza singleton
Per compiti in cui ogni menzione deve essere collegata ad almeno un'altra menzione:
annotation_schemes:
- annotation_type: span
name: mentions
description: Highlight co-referring mentions
labels:
- name: MENTION
- annotation_type: coreference
name: strict_coref
description: All mentions must be part of a chain with at least 2 mentions
span_schema: mentions
allow_singletons: falseVisualizzazione personalizzata
annotation_schemes:
- annotation_type: coreference
name: coref
description: Link coreference chains
span_schema: mentions
visual_display:
highlight_mode: "underline" # Options: background, bracket, underlineInterfaccia utente
Creazione di catene
- Crea menzioni: Usa lo strumento di annotazione span per evidenziare tutte le menzioni di entità
- Seleziona menzioni: Fai clic sugli span evidenziati che vuoi collegare in catena
- Crea catena: Fai clic su "Nuova catena" per raggruppare le menzioni selezionate
Gestione delle catene
- Aggiungi alla catena: Seleziona menzioni aggiuntive e fai clic su "Aggiungi alla catena"
- Unisci catene: Seleziona più catene e fai clic su "Unisci catene" per combinarle
- Rimuovi menzione: Seleziona una menzione e fai clic su "Rimuovi menzione" per rimuoverla dalla sua catena
Codifica a colori
A ogni catena viene automaticamente assegnato un colore distinto. Le menzioni nella stessa catena condividono lo stesso colore, rendendo facile identificare visivamente l'appartenenza alla catena.
Formato di output
Le annotazioni di coreferenza vengono salvate come link tra span:
{
"span_links": [
{
"schema": "coref_chains",
"link_type": "coreference",
"span_ids": ["mentions_0_5_MENTION", "mentions_34_37_MENTION", "mentions_72_85_MENTION"],
"entity_type": "PERSON"
},
{
"schema": "coref_chains",
"link_type": "coreference",
"span_ids": ["mentions_15_23_MENTION", "mentions_95_97_MENTION"],
"entity_type": "ORGANIZATION"
}
]
}Flusso di lavoro consigliato
- Prima passata - Leggi il testo ed evidenzia tutte le menzioni di entità
- Seconda passata - Raggruppa le menzioni in catene di coreferenza
- Revisione - Verifica che tutte le menzioni siano assegnate correttamente e che non manchino catene
Buone pratiche
- Definisci confini di menzione chiari - stabilisci linee guida su cosa conta come menzione
- Gestisci le menzioni annidate - decidi come gestire casi come "il CEO di Microsoft"
- Considera i riferimenti generici - determina se i riferimenti generici debbano essere inclusi
- Addestra gli annotatori - la coreferenza è complessa; fornisci esempi e sessioni di pratica
- Usa i tipi di entità con parsimonia - troppi possono rallentare l'annotazione senza migliorare la qualità dei dati
Ulteriori letture
- Annotazione Span - Creazione di span testuali
- Entity Linking - Collegamento di span a basi di conoscenza
- Span Linking - Altri tipi di relazioni tra span
Per i dettagli di implementazione, consulta la documentazione sorgente.