Skip to content

텍스트 어노테이션

텍스트 어노테이션의 모든 것을 다루는 완전한 가이드입니다. 분류, 다중 레이블 태깅, 평점, 자유 텍스트와 각 텍스트 작업을 복사해 붙여 넣을 수 있는 설정으로 Potato에서 구성하는 방법을 설명합니다.

텍스트 어노테이션이란 글로 쓰인 언어에 레이블을 다는 작업을 말합니다. 문서를 범주로 분류하고, 글의 주제에 태그를 붙이고, 한 단락의 품질을 평가하거나 수정문을 작성하는 일입니다. 자연어 처리에서 가장 흔한 어노테이션 작업이며, Potato가 처음 만들어진 목적이기도 합니다. 이 가이드는 문서 전체 수준의 텍스트 작업을 다룹니다. 텍스트 안의 영역을 표시하려면 범위 어노테이션을 참고하시기 바랍니다.

텍스트 작업 한눈에 보기

  • 문서 분류: 텍스트 전체에 하나의 레이블을 부여합니다(텍스트 분류).
  • 다중 레이블 태깅: 주제나 콘텐츠 경고처럼 여러 레이블을 동시에 부여합니다.
  • 평점과 점수 매기기: 품질이나 감성 강도처럼 척도상의 위치를 정합니다.
  • 자유 텍스트: 직접 쓴 답변, 바꿔 쓴 문장 또는 수정문입니다.

분류: 문서당 하나의 레이블

텍스트 어노테이션의 핵심 작업입니다. 범주가 서로 배타적일 때는 radio를 사용합니다.

yaml
annotation_schemes:
  - annotation_type: radio
    name: sentiment
    description: "What is the overall sentiment of this review?"
    labels: [Positive, Negative, Neutral]
    sequential_key_binding: true

sequential_key_binding은 레이블을 1, 2, 3 키에 매핑하여 어노테이터가 손을 키보드에 둔 채로 작업할 수 있게 합니다. 수천 개 항목을 처리하는 작업에서는 큰 속도 향상으로 이어집니다. 작동하는 예시는 라이브 감성 분석 디자인에서 확인하시기 바랍니다.

다중 레이블: 여러 태그를 한 번에

레이블이 둘 이상 적용될 수 있을 때는 multiselect를 사용합니다. 선택 개수를 지침에 맞게 제한하시기 바랍니다.

yaml
annotation_schemes:
  - annotation_type: multiselect
    name: content_warnings
    description: "Select every content warning that applies."
    labels: [Violence, Profanity, Sexual content, Self-harm, None]
    min_selections: 1
    max_selections: 5

콘텐츠 검열은 전형적인 다중 레이블 텍스트 작업입니다. 유해성 탐지 디자인은 범주와 강조 표시된 범위를 결합합니다.

척도로 텍스트 평가하기

범주가 아니라 정도를 포착하려면 리커트 척도를 사용합니다.

yaml
annotation_schemes:
  - annotation_type: likert
    name: helpfulness
    description: "How helpful is this answer?"
    size: 5
    min_label: "Not helpful"
    max_label: "Very helpful"

묵종 편향이나 척도의 점수 개수를 몇 개로 할지 같은 척도 설계상의 함정은 평점 척도를 참고하시기 바랍니다.

자유 텍스트와 수정문

때로는 가장 유용한 레이블이 어노테이터가 직접 쓴 문장, 즉 근거, 재작성, 전사일 때가 있습니다. 이를 범주와 결합하고 관련이 있을 때만 표시하시기 바랍니다.

yaml
annotation_schemes:
  - annotation_type: radio
    name: factuality
    description: "Is the claim supported by the source?"
    labels: [Supported, Contradicted, Not enough info]
  - annotation_type: text
    name: evidence
    description: "Quote the sentence that supports your choice."
    label_requirement:
      required: false

일관된 텍스트 레이블 얻기

텍스트는 모호하므로 일관성은 인터페이스가 아니라 그것을 둘러싼 프로세스에서 나옵니다.

  1. "판단 불가" 옵션을 둔 촘촘한 지침을 작성합니다.
  2. 여러 어노테이터가 동일한 항목에서 겹치도록 합니다.
  3. 어노테이터 간 일치도를 추적하고 불일치를 조정합니다.
  4. 대규모 작업은 LLM 사전 어노테이션으로 속도를 높이고 제안을 손으로 검증합니다.

더 읽어보기