Skip to content

소프트 레이블

고정된 합계에 맞춰야 하는 슬라이더를 사용하여 범주 전반에 확률 분포를 할당하는 Potato의 소프트 레이블 주석을 구성합니다.

소프트 레이블 주석 스키마를 사용하면 주석자가 단일한 하드 분류 결정을 내리는 대신 여러 범주에 걸쳐 확률 분포를 할당할 수 있습니다. 주석자는 슬라이더를 사용하여 고정된 합계(예: 100점)를 레이블 전반에 분배하며, 범주 간의 불확실성 정도나 중첩을 포착합니다.

개요

소프트 레이블링은 항목이 여러 범주에 부분적으로 속할 수 있을 때 유용합니다. 주석자가 하나의 레이블을 선택하도록 강제하는 대신, 이 스키마는 모든 옵션에 걸쳐 상대적 확신을 표현하도록 합니다. 슬라이더는 항상 구성된 합계가 되도록 연동되며, 선택적 분포 차트가 시각적 피드백을 제공합니다.

빠른 시작

yaml
annotation_schemes:
  - annotation_type: soft_label
    name: sentiment_distribution
    description: Distribute 100 points across sentiment categories based on how much each applies.
    labels: ["Positive", "Neutral", "Negative"]
    total: 100

구성 옵션

필드유형기본값설명
annotation_typestring필수"soft_label"이어야 합니다
namestring필수이 스키마의 고유 식별자
descriptionstring필수주석자에게 표시되는 안내문
labelsarray필수범주 레이블의 목록(최소 2개)
totalinteger100모든 슬라이더가 합산되어야 하는 고정 합계
min_per_labelinteger0각 레이블이 받아야 하는 최솟값
show_distribution_chartbooleantrue현재 분포를 보여주는 파이 또는 막대 차트 표시
label_requirement.requiredbooleanfalse다음으로 넘어가기 전에 주석을 완료해야 하는지 여부

예시

감정 분포

yaml
annotation_schemes:
  - annotation_type: soft_label
    name: sentiment_distribution
    description: How much does each sentiment apply to this text?
    labels: ["Positive", "Neutral", "Negative"]
    total: 100
    show_distribution_chart: true

감정 강도

yaml
annotation_schemes:
  - annotation_type: soft_label
    name: emotion_mix
    description: Distribute points to reflect the mix of emotions in this utterance.
    labels: ["Joy", "Sadness", "Anger", "Fear", "Surprise", "Disgust"]
    total: 100
    min_per_label: 0
    show_distribution_chart: true

주제 관련성

yaml
annotation_schemes:
  - annotation_type: soft_label
    name: topic_relevance
    description: How relevant is this document to each topic?
    labels: ["Politics", "Sports", "Technology", "Entertainment"]
    total: 100
    label_requirement:
      required: true

강제 최소 할당

yaml
annotation_schemes:
  - annotation_type: soft_label
    name: genre_mix
    description: Allocate points across genres. Each genre must receive at least 5 points.
    labels: ["Rock", "Pop", "Jazz", "Classical", "Electronic"]
    total: 100
    min_per_label: 5

출력 형식

json
{
  "sentiment_distribution": {
    "labels": {
      "Positive": 45,
      "Neutral": 30,
      "Negative": 25
    }
  }
}

값은 항상 구성된 total로 합산됩니다.

모범 사례

  1. 범주가 중첩될 때 사용하십시오 - 소프트 레이블은 항목이 여러 범주에 정도를 달리하여 실제로 속할 때 이상적입니다
  2. 레이블 개수를 관리 가능하게 유지하십시오 - 6~7개를 초과하는 레이블은 슬라이더 인터페이스를 다루기 어렵게 만듭니다
  3. 의미 있는 합계를 설정하십시오 - 100은 백분율로 직관적이지만, 더 간단한 작업에는 작은 합계가 효과적입니다
  4. min_per_label은 절제하여 사용하십시오 - 최소 할당을 강제하면 레이블이 실제로 적용되지 않을 때 결과를 편향시킬 수 있습니다
  5. 분포 차트를 활성화하십시오 - 시각적 피드백은 주석자가 자신의 할당을 한눈에 파악하는 데 도움이 됩니다

추가 자료

구현 세부 사항은 원본 문서를 참조하십시오.