Skip to content
このページはまだお使いの言語に翻訳されていません。英語版を表示しています。

Catene di coreferenza

Raggruppa span di testo che si riferiscono alla stessa entità per compiti di risoluzione della coreferenza.

Catene di coreferenza

L'annotazione della coreferenza consente agli annotatori di raggruppare span di testo che si riferiscono alla stessa entità. Questo è essenziale per la risoluzione delle entità, la risoluzione dei pronomi e l'analisi del discorso.

Panoramica

Una catena di coreferenza è una raccolta di menzioni (span di testo) che si riferiscono tutte alla stessa entità del mondo reale. Per esempio:

"Marie Curie era una fisica. Lei vinse il Premio Nobel. La scienziata cambiò il suo campo per sempre."

Gli span "Marie Curie", "Lei", "La scienziata" e "il suo" si riferiscono tutti alla stessa persona e formano un'unica catena di coreferenza.

Avvio rapido

L'annotazione della coreferenza richiede due componenti dello schema:

  1. Uno schema span per la creazione delle menzioni
  2. Uno schema coreference per raggruppare le menzioni in catene
yaml
annotation_schemes:
  - annotation_type: span
    name: mentions
    description: Highlight all entity mentions
    labels:
      - name: MENTION
        tooltip: "Any reference to an entity"
    sequential_key_binding: true
 
  - annotation_type: coreference
    name: coref_chains
    description: Group mentions that refer to the same entity
    span_schema: mentions
    allow_singletons: true

Opzioni di configurazione

CampoTipoPredefinitoDescrizione
annotation_typestringObbligatorioDeve essere "coreference"
namestringObbligatorioIdentificatore univoco per questo schema
descriptionstringObbligatorioIstruzioni visualizzate agli annotatori
span_schemastringObbligatorioNome dello schema span che fornisce le menzioni
entity_typeslist[]Elenco delle categorie di tipi di entità
allow_singletonsbooleantrueConsente catene con una sola menzione
visual_display.highlight_modestring"background"Stile visivo: "background", "bracket" o "underline"

Esempi

Con tipi di entità

Classifica le catene per tipo di entità:

yaml
annotation_schemes:
  - annotation_type: span
    name: ner
    description: Mark named entities
    labels:
      - name: ENTITY
        tooltip: "Any named entity mention"
 
  - annotation_type: coreference
    name: coref
    description: Create coreference chains
    span_schema: ner
    entity_types:
      - name: PERSON
        color: "#6E56CF"
      - name: ORGANIZATION
        color: "#22C55E"
      - name: LOCATION
        color: "#3B82F6"
      - name: OTHER
        color: "#F59E0B"

Senza singleton

Per compiti in cui ogni menzione deve essere collegata ad almeno un'altra menzione:

yaml
annotation_schemes:
  - annotation_type: span
    name: mentions
    description: Highlight co-referring mentions
    labels:
      - name: MENTION
 
  - annotation_type: coreference
    name: strict_coref
    description: All mentions must be part of a chain with at least 2 mentions
    span_schema: mentions
    allow_singletons: false

Visualizzazione personalizzata

yaml
annotation_schemes:
  - annotation_type: coreference
    name: coref
    description: Link coreference chains
    span_schema: mentions
    visual_display:
      highlight_mode: "underline"  # Options: background, bracket, underline

Interfaccia utente

Creazione di catene

  1. Crea menzioni: Usa lo strumento di annotazione span per evidenziare tutte le menzioni di entità
  2. Seleziona menzioni: Fai clic sugli span evidenziati che vuoi collegare in catena
  3. Crea catena: Fai clic su "Nuova catena" per raggruppare le menzioni selezionate

Gestione delle catene

  • Aggiungi alla catena: Seleziona menzioni aggiuntive e fai clic su "Aggiungi alla catena"
  • Unisci catene: Seleziona più catene e fai clic su "Unisci catene" per combinarle
  • Rimuovi menzione: Seleziona una menzione e fai clic su "Rimuovi menzione" per rimuoverla dalla sua catena

Codifica a colori

A ogni catena viene automaticamente assegnato un colore distinto. Le menzioni nella stessa catena condividono lo stesso colore, rendendo facile identificare visivamente l'appartenenza alla catena.

Formato di output

Le annotazioni di coreferenza vengono salvate come link tra span:

json
{
  "span_links": [
    {
      "schema": "coref_chains",
      "link_type": "coreference",
      "span_ids": ["mentions_0_5_MENTION", "mentions_34_37_MENTION", "mentions_72_85_MENTION"],
      "entity_type": "PERSON"
    },
    {
      "schema": "coref_chains",
      "link_type": "coreference",
      "span_ids": ["mentions_15_23_MENTION", "mentions_95_97_MENTION"],
      "entity_type": "ORGANIZATION"
    }
  ]
}

Flusso di lavoro consigliato

  1. Prima passata - Leggi il testo ed evidenzia tutte le menzioni di entità
  2. Seconda passata - Raggruppa le menzioni in catene di coreferenza
  3. Revisione - Verifica che tutte le menzioni siano assegnate correttamente e che non manchino catene

Buone pratiche

  1. Definisci confini di menzione chiari - stabilisci linee guida su cosa conta come menzione
  2. Gestisci le menzioni annidate - decidi come gestire casi come "il CEO di Microsoft"
  3. Considera i riferimenti generici - determina se i riferimenti generici debbano essere inclusi
  4. Addestra gli annotatori - la coreferenza è complessa; fornisci esempi e sessioni di pratica
  5. Usa i tipi di entità con parsimonia - troppi possono rallentare l'annotazione senza migliorare la qualità dei dati

Ulteriori letture

Per i dettagli di implementazione, consulta la documentazione sorgente.