텍스트 어노테이션
텍스트 어노테이션의 모든 것을 다루는 완전한 가이드입니다. 분류, 다중 레이블 태깅, 평점, 자유 텍스트와 각 텍스트 작업을 복사해 붙여 넣을 수 있는 설정으로 Potato에서 구성하는 방법을 설명합니다.
텍스트 어노테이션이란 글로 쓰인 언어에 레이블을 다는 작업을 말합니다. 문서를 범주로 분류하고, 글의 주제에 태그를 붙이고, 한 단락의 품질을 평가하거나 수정문을 작성하는 일입니다. 자연어 처리에서 가장 흔한 어노테이션 작업이며, Potato가 처음 만들어진 목적이기도 합니다. 이 가이드는 문서 전체 수준의 텍스트 작업을 다룹니다. 텍스트 안의 영역을 표시하려면 범위 어노테이션을 참고하시기 바랍니다.
텍스트 작업 한눈에 보기
- 문서 분류: 텍스트 전체에 하나의 레이블을 부여합니다(텍스트 분류).
- 다중 레이블 태깅: 주제나 콘텐츠 경고처럼 여러 레이블을 동시에 부여합니다.
- 평점과 점수 매기기: 품질이나 감성 강도처럼 척도상의 위치를 정합니다.
- 자유 텍스트: 직접 쓴 답변, 바꿔 쓴 문장 또는 수정문입니다.
분류: 문서당 하나의 레이블
텍스트 어노테이션의 핵심 작업입니다. 범주가 서로 배타적일 때는 radio를 사용합니다.
annotation_schemes:
- annotation_type: radio
name: sentiment
description: "What is the overall sentiment of this review?"
labels: [Positive, Negative, Neutral]
sequential_key_binding: truesequential_key_binding은 레이블을 1, 2, 3 키에 매핑하여 어노테이터가 손을 키보드에 둔 채로 작업할 수 있게 합니다. 수천 개 항목을 처리하는 작업에서는 큰 속도 향상으로 이어집니다. 작동하는 예시는 라이브 감성 분석 디자인에서 확인하시기 바랍니다.
다중 레이블: 여러 태그를 한 번에
레이블이 둘 이상 적용될 수 있을 때는 multiselect를 사용합니다. 선택 개수를 지침에 맞게 제한하시기 바랍니다.
annotation_schemes:
- annotation_type: multiselect
name: content_warnings
description: "Select every content warning that applies."
labels: [Violence, Profanity, Sexual content, Self-harm, None]
min_selections: 1
max_selections: 5콘텐츠 검열은 전형적인 다중 레이블 텍스트 작업입니다. 유해성 탐지 디자인은 범주와 강조 표시된 범위를 결합합니다.
척도로 텍스트 평가하기
범주가 아니라 정도를 포착하려면 리커트 척도를 사용합니다.
annotation_schemes:
- annotation_type: likert
name: helpfulness
description: "How helpful is this answer?"
size: 5
min_label: "Not helpful"
max_label: "Very helpful"묵종 편향이나 척도의 점수 개수를 몇 개로 할지 같은 척도 설계상의 함정은 평점 척도를 참고하시기 바랍니다.
자유 텍스트와 수정문
때로는 가장 유용한 레이블이 어노테이터가 직접 쓴 문장, 즉 근거, 재작성, 전사일 때가 있습니다. 이를 범주와 결합하고 관련이 있을 때만 표시하시기 바랍니다.
annotation_schemes:
- annotation_type: radio
name: factuality
description: "Is the claim supported by the source?"
labels: [Supported, Contradicted, Not enough info]
- annotation_type: text
name: evidence
description: "Quote the sentence that supports your choice."
label_requirement:
required: false일관된 텍스트 레이블 얻기
텍스트는 모호하므로 일관성은 인터페이스가 아니라 그것을 둘러싼 프로세스에서 나옵니다.
- "판단 불가" 옵션을 둔 촘촘한 지침을 작성합니다.
- 여러 어노테이터가 동일한 항목에서 겹치도록 합니다.
- 어노테이터 간 일치도를 추적하고 불일치를 조정합니다.
- 대규모 작업은 LLM 사전 어노테이션으로 속도를 높이고 제안을 손으로 검증합니다.
더 읽어보기
- 범위 어노테이션, 텍스트 안의 영역 표시하기
- 어노테이션 스키마 선택하기
- 어노테이션 스키마 레퍼런스