Skip to content
Announcements4 min read

Potato 2.2: 이벤트, 엔터티 연결, 내보내기, 55개 설문 도구

Potato 2.2.0은 9개의 새로운 어노테이션 스키마, 플러그형 내보내기 시스템, MACE 역량 추정, 검증된 55개 설문 도구, 원격 데이터 소스를 추가합니다.

Potato Team

참고: 이 게시물은 출시 당시의 Potato 2.2를 설명합니다. 일부 설정 키와 기능은 이후 버전에서 업데이트되었습니다. 최신 설정 구문은 현재 문서를 참조하세요.

Potato 2.2.0이 출시되어, 무엇을 어노테이션할 수 있는지와 품질을 어떻게 유지하는지를 모두 넓혔습니다. 9개의 새로운 어노테이션 스키마, 플러그형 내보내기 시스템, MACE 역량 추정, 검증된 55개 설문 도구, 원격 데이터 소스를 추가합니다.

새로운 어노테이션 스키마

이벤트 어노테이션

2.2에서 가장 큰 스키마 추가는 N항 이벤트 어노테이션입니다. 이벤트는 트리거 스팬(이벤트를 알리는 단어)과 유형이 지정된 의미역을 가진 인수 스팬으로 구성됩니다. 허브 앤 스포크 형태의 호 시각화가 각 트리거를 해당 인수에 연결합니다.

yaml
annotation_schemes:
  - annotation_type: event_annotation
    name: events
    span_schema: entities
    event_types:
      - type: "ATTACK"
        trigger_labels: ["EVENT_TRIGGER"]
        arguments:
          - role: "attacker"
            entity_types: ["PERSON", "ORGANIZATION"]
            required: true
          - role: "target"
            entity_types: ["PERSON", "ORGANIZATION", "LOCATION"]
            required: true

이는 정보 추출, 의미역 결정, 지식 그래프 구축을 다루며, 이전에는 모두 맞춤 도구가 필요했던 작업입니다.

이벤트 어노테이션 문서 읽기 →

엔터티 연결

스팬 어노테이션이 이제 외부 지식 베이스를 가리킬 수 있습니다. 어노테이터가 텍스트를 강조하고 레이블을 할당한 다음, 검색 모달을 사용해 일치하는 Wikidata, UMLS 또는 맞춤 지식 베이스 엔터티를 찾아 연결합니다.

yaml
annotation_schemes:
  - annotation_type: span
    name: ner
    labels: [PERSON, ORGANIZATION, LOCATION]
    entity_linking:
      enabled: true
      knowledge_bases:
        - name: wikidata
          type: wikidata
          language: en

또한 모호한 엔터티를 위한 다중 선택 모드를 처리하며, 하나의 작업에서 여러 지식 베이스를 연결할 수 있게 해줍니다.

엔터티 연결 문서 읽기 →

분류 심사, 쌍대 비교, 상호참조 등

여섯 가지 어노테이션 유형이 v2.2 추가 사항을 채웁니다.

  • 분류 심사는 데이터를 빠르게 선별하기 위한 수락/거부/건너뛰기 인터페이스를 제공하며, 자동 진행과 키보드 단축키를 갖추고 있습니다
  • 쌍대 비교는 선호 학습 및 RLHF 데이터를 위한 이진 A/B 선택 또는 스케일 슬라이더를 제공합니다
  • 대화 트리는 노드별 평가와 경로 선택이 가능한 계층적 트리 어노테이션을 지원합니다
  • 상호참조 체인은 공동참조 멘션을 묶을 수 있게 하며, 시각적 표시로 체인을 보여줍니다
  • 세그멘테이션 마스크는 픽셀 단위 이미지 어노테이션을 위한 채우기, 지우개, 브러시 도구를 추가합니다
  • 불연속 스팬(allow_discontinuous: true)은 인접하지 않은 텍스트 선택을 처리합니다

더 똑똑한 어노테이션

MACE 역량 추정

MACE는 변분 베이즈 EM 알고리즘을 실행하여 참 레이블과 각 어노테이터의 역량(0.0에서 1.0까지의 점수)을 동시에 추정합니다. 신뢰할 수 있는 어노테이터를 표시하고, 스패머를 잡아내며, 더 나은 예측 레이블을 만들어냅니다.

yaml
mace:
  enabled: true
  trigger_every_n: 10
  min_annotations_per_item: 3

자체적으로 백그라운드에서 실행되며, 관리자 대시보드와 판정 시스템에 연결됩니다.

MACE 문서 읽기 →

옵션 강조

이 새로운 AI 기능은 콘텐츠를 읽고 이산형 작업에서 정답일 가능성이 가장 높은 옵션을 강조합니다. 상위 k개 옵션은 옆에 별이 붙은 채 완전한 불투명도로 표시되고, 나머지는 흐려집니다.

yaml
ai_support:
  option_highlighting:
    enabled: true
    top_k: 3
    dim_opacity: 0.4

옵션 강조 문서 읽기 →

다양성 정렬

sentence-transformer 임베딩이 유사한 항목들을 클러스터로 묶고, 라운드 로빈 샘플링이 서로 다른 클러스터에서 항목을 차례로 꺼냅니다. 어노테이터가 더 다양한 항목을 보게 되어 집중력을 유지하고, 주제 공간에 대한 더 나은 커버리지를 얻습니다.

yaml
assignment_strategy: diversity_clustering
diversity_ordering:
  enabled: true
  prefill_count: 100

다양성 정렬 문서 읽기 →

내보내기 시스템

새로운 내보내기 CLI(python -m potato.export)는 단일 명령으로 어노테이션을 6가지 표준 형식으로 변환합니다.

bash
python -m potato.export --config config.yaml --format coco --output ./export/
python -m potato.export --config config.yaml --format yolo --output ./export/
python -m potato.export --config config.yaml --format conll_2003 --output ./export/

지원 형식: COCO, YOLO, Pascal VOC, CoNLL-2003, CoNLL-U, 세그멘테이션 마스크입니다. 목록에 없는 형식이 필요하면 BaseExporter를 서브클래싱하여 직접 작성하면 됩니다.

내보내기 형식 문서 읽기 →

원격 데이터 소스

URL, S3, Google Drive, Dropbox, Hugging Face 데이터셋, Google Sheets, SQL 데이터베이스에서 어노테이션 데이터를 불러옵니다.

yaml
data_sources:
  - type: huggingface
    dataset: "squad"
    split: "train"
 
  - type: s3
    bucket: "my-annotation-data"
    key: "datasets/items.jsonl"

또한 대규모 데이터셋을 위한 부분 및 증분 로딩을 처리하고, 데이터를 로컬에 캐시하며, 자격 증명을 설정 파일이 아닌 환경 변수에 보관합니다.

원격 데이터 소스 문서 읽기 →

설문 도구

사전 연구 및 사후 연구 단계에 넣을 수 있는 검증된 55개 설문지 라이브러리입니다.

yaml
phases:
  prestudy:
    type: prestudy
    instrument: "tipi"      # 10-item personality questionnaire
 
  poststudy:
    type: poststudy
    instrument: "phq-9"     # 9-item depression screening

이들은 8개 범주에 걸쳐 있습니다. 성격(BFI-2, TIPI), 정신 건강(PHQ-9, GAD-7), 정서(PANAS), 자아 개념(RSE), 사회적 태도(SDO-7, MFQ), 응답 스타일, 단축형 버전, 그리고 주요 설문(ANES, GSS, ESS)에서 가져온 인구통계 배터리입니다.

설문 도구 문서 읽기 →

소소한 수정

  • 키프레임 보간을 사용한 비디오 객체 추적
  • PDF 페이지에서의 바운딩 박스 어노테이션
  • 외부 AI 설정 파일 지원
  • 양식 레이아웃 그리드 개선

v2.2로 업그레이드하기

bash
pip install --upgrade potato-annotation

기존 v2.0 및 v2.1 설정은 변경 없이 계속 작동합니다. 새로운 것은 모두 추가 설정 블록을 통한 선택 사항입니다.

시작하기

변경된 설정 키를 포함한 전체 변경 로그는 저장소의 v2.2.0 릴리스 노트를 참조하세요.


질문이나 의견이 있으신가요? 저희 Discord에 참여하거나 GitHub에 이슈를 열어 주세요.