상호참조 해소
상호참조 어노테이션이 무엇인지, 멘션을 엔티티 체인으로 묶는 방법, 그리고 Potato에서 상호참조 작업을 설정하는 방법을 설명합니다.
상호참조 해소는 텍스트에서 같은 대상을 가리키는 모든 멘션을 묶는 작업입니다. "마리 퀴리 … 그녀 … 그 물리학자"는 한 사람을 가리키는 하나의 체인입니다. 흩어진 멘션을 엔티티로 바꿔 주며, 요약, 질의응답, 지식 추출에 꼭 필요합니다.
배경은 상호참조를 참고하십시오.
어노테이터가 하는 일
- 각 멘션(이름, 대명사, 명사구)을 스팬으로 표시합니다.
- 같은 엔티티를 가리키는 멘션을 하나의 체인으로 묶습니다.
- 본문에 등장하는 서로 다른 엔티티마다 이를 반복합니다.
출력은 체인의 집합이며, 각 체인은 서로 상호참조하는 스팬의 목록입니다. 체인은 문장 경계를 넘나들 수 있는데, 바로 이 점이 단순한 스팬 어노테이션보다 이 작업을 더 어렵게 만듭니다.
Potato에서 설정하기
Potato에는 상호참조 어노테이션 타입이 있어 어노테이터가 멘션을 표시하고 이를 체인으로 연결할 수 있습니다. 상호참조 쇼케이스는 바로 실행해 볼 수 있는 예제입니다.
yaml
annotation_schemes:
- annotation_type: span
name: mentions
description: "Mark every mention (names, pronouns, noun phrases), then group mentions that refer to the same entity into a chain."
labels: [Entity]
allow_overlapping: true멘션은 자주 중첩되므로("[[그의] 어머니]") 스팬 겹침을 허용합니다.
흔한 함정
- 싱글톤. 단 한 번만 언급된 엔티티를 표시할지 결정합니다. 집계와 지표에 영향을 줍니다.
- 일반 대 특정. "의사들은 휴식을 권한다"에서 "의사들"은 추적할 엔티티인가요? 규칙을 정해 두십시오.
- 분리된 선행사. "앨리스와 밥 … 그들"은 둘 다를 가리킵니다. 이를 어떻게 표현할지 결정하십시오.
체인은 구조화되어 있으므로 일치도를 신중하게 측정하십시오. 어노테이터 간 일치도를 참고하고 조정은 주의 깊게 하십시오.