Cadeias de Correferência
Agrupe segmentos de texto que se referem à mesma entidade para tarefas de resolução de correferência.
A anotação de correferência permite que os anotadores agrupem segmentos de texto que se referem à mesma entidade. Isso é essencial para resolução de entidades, resolução de pronomes e análise do discurso.
Visão Geral
Uma cadeia de correferência é um conjunto de menções (segmentos de texto) que se referem todas à mesma entidade do mundo real. Por exemplo:
"Marie Curie foi uma física. Ela ganhou o Prêmio Nobel. A cientista mudou seu campo para sempre."
Os segmentos "Marie Curie", "Ela", "A cientista" e "seu" referem-se todos à mesma pessoa e formam uma única cadeia de correferência.
Início Rápido
A anotação de correferência exige dois componentes de esquema:
- Um esquema de segmentos para criar menções
- Um esquema de correferência para agrupar menções em cadeias
annotation_schemes:
- annotation_type: span
name: mentions
description: Highlight all entity mentions
labels:
- name: MENTION
tooltip: "Any reference to an entity"
sequential_key_binding: true
- annotation_type: coreference
name: coref_chains
description: Group mentions that refer to the same entity
span_schema: mentions
allow_singletons: trueOpções de Configuração
| Campo | Tipo | Padrão | Descrição |
|---|---|---|---|
annotation_type | string | Obrigatório | Deve ser "coreference" |
name | string | Obrigatório | Identificador único para este esquema |
description | string | Obrigatório | Instruções exibidas aos anotadores |
span_schema | string | Obrigatório | Nome do esquema de segmentos que fornece as menções |
entity_types | list | [] | Lista de categorias de tipos de entidade |
allow_singletons | boolean | true | Permitir cadeias com apenas uma menção |
visual_display.highlight_mode | string | "background" | Estilo visual: "background", "bracket" ou "underline" |
Exemplos
Com Tipos de Entidade
Classifique cadeias por tipo de entidade:
annotation_schemes:
- annotation_type: span
name: ner
description: Mark named entities
labels:
- name: ENTITY
tooltip: "Any named entity mention"
- annotation_type: coreference
name: coref
description: Create coreference chains
span_schema: ner
entity_types:
- name: PERSON
color: "#6E56CF"
- name: ORGANIZATION
color: "#22C55E"
- name: LOCATION
color: "#3B82F6"
- name: OTHER
color: "#F59E0B"Sem Singletons
Para tarefas em que cada menção deve estar vinculada a pelo menos outra menção:
annotation_schemes:
- annotation_type: span
name: mentions
description: Highlight co-referring mentions
labels:
- name: MENTION
- annotation_type: coreference
name: strict_coref
description: All mentions must be part of a chain with at least 2 mentions
span_schema: mentions
allow_singletons: falseExibição Visual Personalizada
annotation_schemes:
- annotation_type: coreference
name: coref
description: Link coreference chains
span_schema: mentions
visual_display:
highlight_mode: "underline" # Options: background, bracket, underlineInterface do Usuário
Criar Cadeias
- Criar menções: Use a ferramenta de anotação de segmentos para destacar todas as menções de entidades
- Selecionar menções: Clique nos segmentos destacados que deseja encadear
- Criar cadeia: Clique em "Nova Cadeia" para agrupar as menções selecionadas
Gerenciar Cadeias
- Adicionar à Cadeia: Selecione menções adicionais e clique em "Adicionar à Cadeia"
- Mesclar Cadeias: Selecione várias cadeias e clique em "Mesclar Cadeias" para combiná-las
- Remover Menção: Selecione uma menção e clique em "Remover Menção" para retirá-la de sua cadeia
Código de Cores
Cada cadeia recebe automaticamente uma cor distinta. As menções da mesma cadeia compartilham a mesma cor, o que facilita identificar visualmente a que cadeia cada menção pertence.
Formato de Saída
As anotações de correferência são salvas como vínculos de segmentos:
{
"span_links": [
{
"schema": "coref_chains",
"link_type": "coreference",
"span_ids": ["mentions_0_5_MENTION", "mentions_34_37_MENTION", "mentions_72_85_MENTION"],
"entity_type": "PERSON"
},
{
"schema": "coref_chains",
"link_type": "coreference",
"span_ids": ["mentions_15_23_MENTION", "mentions_95_97_MENTION"],
"entity_type": "ORGANIZATION"
}
]
}Fluxo de Trabalho Recomendado
- Primeira passada - Leia o texto e destaque todas as menções de entidades
- Segunda passada - Agrupe as menções em cadeias de correferência
- Revisão - Verifique se todas as menções estão corretamente atribuídas e se nenhuma cadeia está faltando
Boas Práticas
- Defina limites claros de menção - estabeleça diretrizes sobre o que conta como uma menção
- Trate menções aninhadas - decida como lidar com casos como "o CEO da Microsoft"
- Considere referências genéricas - determine se referências genéricas devem ser incluídas
- Treine os anotadores - a correferência é complexa; forneça exemplos e rodadas de prática
- Use tipos de entidade com moderação - muitos tipos podem deixar a anotação mais lenta sem melhorar a qualidade dos dados
Leitura Adicional
- Anotação de Segmentos - Criar segmentos de texto
- Vinculação de Entidades - Vincular segmentos a bases de conhecimento
- Vinculação de Segmentos - Outros tipos de relações entre segmentos
Para detalhes de implementação, consulte a documentação fonte.