스팬 어노테이션
스팬 어노테이션 완전 가이드. 텍스트 영역 강조, 겹치는 스팬과 중첩된 스팬, 레이블 색상, BIO/IOB 태깅, 그리고 Potato에서 스팬 작업을 구축하는 방법을 다룹니다.
스팬 어노테이션이란 항목 전체에 레이블을 붙이는 것이 아니라 항목 안의 영역을 표시하는 것입니다. 어노테이터는 텍스트의 한 구간(또는 오디오의 한 구간)을 강조하고 거기에 레이블을 부여합니다. 이는 개체명 인식, 오류 표시, 추출형 질의응답, 오디오 이벤트 검출의 토대이며, 모두 레이블 집합만 다른 스팬 작업입니다.
스팬이란 레이블이 붙은 부분 수열로, 시작 위치, 끝 위치, 범주로 이루어집니다. 기계 학습에서는 보통 이를 시퀀스 레이블링으로 정식화하며, 각 토큰에 태그가 부여됩니다.
기본적인 스팬 작업
레이블을 정의하고 어노테이터가 강조하도록 하면 됩니다. 색상과 툴팁이 인터페이스를 빠르고 설명이 필요 없게 만들어 줍니다.
annotation_schemes:
- annotation_type: span
name: entities
description: "Highlight each named entity and choose its type."
labels: [PERSON, ORGANIZATION, LOCATION, DATE, MISC]
label_colors:
PERSON: "#3b82f6"
ORGANIZATION: "#10b981"
LOCATION: "#f59e0b"
DATE: "#8b5cf6"
MISC: "#6b7280"
sequential_key_binding: true
allow_overlapping: false개체명 인식 디자인이 바로 이 작업이며, 그대로 실행할 수 있습니다.
겹치는 스팬과 중첩된 스팬
기본적으로 하나의 문자는 많아야 하나의 스팬에만 속합니다. 일부 작업에는 그 이상이 필요합니다.
- 겹치는 스팬: 두 어노테이션이 같은 텍스트의 일부를 함께 덮는 경우. 예를 들어 감정 스팬이 개체 스팬 위에 겹치는 경우입니다.
- 중첩된 스팬: 한 스팬이 다른 스팬 안에 들어가는 경우. 예를 들어 "[University of [Michigan]]"에서는 지명이 조직명 안에 중첩되어 있습니다.
가이드라인이 요구할 때는 allow_overlapping: true를 설정하십시오. 이는 일찍 결정하십시오. 어노테이터가 경계를 어떻게 생각하는지에 영향을 주기 때문입니다.
BIO/IOB 태깅, 내보내기는 어떻게 보이는가
스팬 어노테이션은 학습용으로 내보낼 때 보통 BIO 스킴(IOB라고도 함)의 토큰 태그로 출력됩니다. B-는 개체의 첫 토큰을, I-는 그 내부의 토큰을, O는 어떤 개체에도 속하지 않는 토큰을 나타냅니다.
Barack B-PERSON
Obama I-PERSON
visited O
Paris B-LOCATION
Potato는 스팬을 CoNLL 및 spaCy 형식으로 내보낼 수 있으며, 이들은 이 태깅을 그대로 사용합니다. ML을 위한 어노테이션 내보내기를 참조하십시오.
경계를 제대로 잡기
스팬 작업에서 가장 어려운 부분은 스팬이 어디서 시작하고 어디서 끝나는지에 대해 합의하는 것입니다. 도움이 되는 몇 가지 규칙을 소개합니다.
- 주변 구두점, 경칭("Dr."), 끝에 붙는 소유격을 포함할지 결정하고 그것을 적어 두십시오.
- 일치도는 문서 수준만이 아니라 스팬 수준에서도 측정하여 경계 불일치가 드러나게 하십시오. 어노테이터 간 일치도를 참조하십시오.
- 툴팁을 사용하여 경계 규칙을 어노테이터의 눈앞에 늘 두십시오.
NER를 넘어선 스팬 작업
같은 메커니즘이 많은 작업을 뒷받침합니다.
- 오류 스팬: 번역이나 모델 출력의 오류를 MQM 방식으로 표시합니다. 환각 검출을 참조하십시오.
- 추출형 QA: 한 단락 안에서 질문에 대한 답을 강조합니다.
- 오디오 이벤트 검출: 파형 위에서 어떤 소리가 언제 발생하는지 표시합니다. 오디오 어노테이션을 참조하십시오.
- 관계와 상호 참조: 여러 스팬을 서로 연결합니다. 관계 및 이벤트 추출과 상호 참조 해소를 참조하십시오.