Skip to content

상호참조 해소

상호참조 어노테이션이 무엇인지, 멘션을 엔티티 체인으로 묶는 방법, 그리고 Potato에서 상호참조 작업을 설정하는 방법을 설명합니다.

상호참조 해소는 텍스트에서 같은 대상을 가리키는 모든 멘션을 묶는 작업입니다. "마리 퀴리 … 그녀 … 그 물리학자"는 한 사람을 가리키는 하나의 체인입니다. 흩어진 멘션을 엔티티로 바꿔 주며, 요약, 질의응답, 지식 추출에 꼭 필요합니다.

배경은 상호참조를 참고하십시오.

어노테이터가 하는 일

  1. 각 멘션(이름, 대명사, 명사구)을 스팬으로 표시합니다.
  2. 같은 엔티티를 가리키는 멘션을 하나의 체인으로 묶습니다.
  3. 본문에 등장하는 서로 다른 엔티티마다 이를 반복합니다.

출력은 체인의 집합이며, 각 체인은 서로 상호참조하는 스팬의 목록입니다. 체인은 문장 경계를 넘나들 수 있는데, 바로 이 점이 단순한 스팬 어노테이션보다 이 작업을 더 어렵게 만듭니다.

Potato에서 설정하기

Potato에는 상호참조 어노테이션 타입이 있어 어노테이터가 멘션을 표시하고 이를 체인으로 연결할 수 있습니다. 상호참조 쇼케이스는 바로 실행해 볼 수 있는 예제입니다.

yaml
annotation_schemes:
  - annotation_type: span
    name: mentions
    description: "Mark every mention (names, pronouns, noun phrases), then group mentions that refer to the same entity into a chain."
    labels: [Entity]
    allow_overlapping: true

멘션은 자주 중첩되므로("[[그의] 어머니]") 스팬 겹침을 허용합니다.

흔한 함정

  • 싱글톤. 단 한 번만 언급된 엔티티를 표시할지 결정합니다. 집계와 지표에 영향을 줍니다.
  • 일반 대 특정. "의사들은 휴식을 권한다"에서 "의사들"은 추적할 엔티티인가요? 규칙을 정해 두십시오.
  • 분리된 선행사. "앨리스와 밥 … 그들"은 둘 다를 가리킵니다. 이를 어떻게 표현할지 결정하십시오.

체인은 구조화되어 있으므로 일치도를 신중하게 측정하십시오. 어노테이터 간 일치도를 참고하고 조정은 주의 깊게 하십시오.

더 읽어보기