Potato 2.2: 이벤트, 엔터티 연결, 내보내기, 55개 설문 도구
Potato 2.2.0은 9개의 새로운 어노테이션 스키마, 플러그형 내보내기 시스템, MACE 역량 추정, 검증된 55개 설문 도구, 원격 데이터 소스를 추가합니다.
참고: 이 게시물은 출시 당시의 Potato 2.2를 설명합니다. 일부 설정 키와 기능은 이후 버전에서 업데이트되었습니다. 최신 설정 구문은 현재 문서를 참조하세요.
Potato 2.2.0이 출시되어, 무엇을 어노테이션할 수 있는지와 품질을 어떻게 유지하는지를 모두 넓혔습니다. 9개의 새로운 어노테이션 스키마, 플러그형 내보내기 시스템, MACE 역량 추정, 검증된 55개 설문 도구, 원격 데이터 소스를 추가합니다.
새로운 어노테이션 스키마
이벤트 어노테이션
2.2에서 가장 큰 스키마 추가는 N항 이벤트 어노테이션입니다. 이벤트는 트리거 스팬(이벤트를 알리는 단어)과 유형이 지정된 의미역을 가진 인수 스팬으로 구성됩니다. 허브 앤 스포크 형태의 호 시각화가 각 트리거를 해당 인수에 연결합니다.
annotation_schemes:
- annotation_type: event_annotation
name: events
span_schema: entities
event_types:
- type: "ATTACK"
trigger_labels: ["EVENT_TRIGGER"]
arguments:
- role: "attacker"
entity_types: ["PERSON", "ORGANIZATION"]
required: true
- role: "target"
entity_types: ["PERSON", "ORGANIZATION", "LOCATION"]
required: true이는 정보 추출, 의미역 결정, 지식 그래프 구축을 다루며, 이전에는 모두 맞춤 도구가 필요했던 작업입니다.
엔터티 연결
스팬 어노테이션이 이제 외부 지식 베이스를 가리킬 수 있습니다. 어노테이터가 텍스트를 강조하고 레이블을 할당한 다음, 검색 모달을 사용해 일치하는 Wikidata, UMLS 또는 맞춤 지식 베이스 엔터티를 찾아 연결합니다.
annotation_schemes:
- annotation_type: span
name: ner
labels: [PERSON, ORGANIZATION, LOCATION]
entity_linking:
enabled: true
knowledge_bases:
- name: wikidata
type: wikidata
language: en또한 모호한 엔터티를 위한 다중 선택 모드를 처리하며, 하나의 작업에서 여러 지식 베이스를 연결할 수 있게 해줍니다.
분류 심사, 쌍대 비교, 상호참조 등
여섯 가지 어노테이션 유형이 v2.2 추가 사항을 채웁니다.
- 분류 심사는 데이터를 빠르게 선별하기 위한 수락/거부/건너뛰기 인터페이스를 제공하며, 자동 진행과 키보드 단축키를 갖추고 있습니다
- 쌍대 비교는 선호 학습 및 RLHF 데이터를 위한 이진 A/B 선택 또는 스케일 슬라이더를 제공합니다
- 대화 트리는 노드별 평가와 경로 선택이 가능한 계층적 트리 어노테이션을 지원합니다
- 상호참조 체인은 공동참조 멘션을 묶을 수 있게 하며, 시각적 표시로 체인을 보여줍니다
- 세그멘테이션 마스크는 픽셀 단위 이미지 어노테이션을 위한 채우기, 지우개, 브러시 도구를 추가합니다
- 불연속 스팬(
allow_discontinuous: true)은 인접하지 않은 텍스트 선택을 처리합니다
더 똑똑한 어노테이션
MACE 역량 추정
MACE는 변분 베이즈 EM 알고리즘을 실행하여 참 레이블과 각 어노테이터의 역량(0.0에서 1.0까지의 점수)을 동시에 추정합니다. 신뢰할 수 있는 어노테이터를 표시하고, 스패머를 잡아내며, 더 나은 예측 레이블을 만들어냅니다.
mace:
enabled: true
trigger_every_n: 10
min_annotations_per_item: 3자체적으로 백그라운드에서 실행되며, 관리자 대시보드와 판정 시스템에 연결됩니다.
옵션 강조
이 새로운 AI 기능은 콘텐츠를 읽고 이산형 작업에서 정답일 가능성이 가장 높은 옵션을 강조합니다. 상위 k개 옵션은 옆에 별이 붙은 채 완전한 불투명도로 표시되고, 나머지는 흐려집니다.
ai_support:
option_highlighting:
enabled: true
top_k: 3
dim_opacity: 0.4다양성 정렬
sentence-transformer 임베딩이 유사한 항목들을 클러스터로 묶고, 라운드 로빈 샘플링이 서로 다른 클러스터에서 항목을 차례로 꺼냅니다. 어노테이터가 더 다양한 항목을 보게 되어 집중력을 유지하고, 주제 공간에 대한 더 나은 커버리지를 얻습니다.
assignment_strategy: diversity_clustering
diversity_ordering:
enabled: true
prefill_count: 100내보내기 시스템
새로운 내보내기 CLI(python -m potato.export)는 단일 명령으로 어노테이션을 6가지 표준 형식으로 변환합니다.
python -m potato.export --config config.yaml --format coco --output ./export/
python -m potato.export --config config.yaml --format yolo --output ./export/
python -m potato.export --config config.yaml --format conll_2003 --output ./export/지원 형식: COCO, YOLO, Pascal VOC, CoNLL-2003, CoNLL-U, 세그멘테이션 마스크입니다. 목록에 없는 형식이 필요하면 BaseExporter를 서브클래싱하여 직접 작성하면 됩니다.
원격 데이터 소스
URL, S3, Google Drive, Dropbox, Hugging Face 데이터셋, Google Sheets, SQL 데이터베이스에서 어노테이션 데이터를 불러옵니다.
data_sources:
- type: huggingface
dataset: "squad"
split: "train"
- type: s3
bucket: "my-annotation-data"
key: "datasets/items.jsonl"또한 대규모 데이터셋을 위한 부분 및 증분 로딩을 처리하고, 데이터를 로컬에 캐시하며, 자격 증명을 설정 파일이 아닌 환경 변수에 보관합니다.
설문 도구
사전 연구 및 사후 연구 단계에 넣을 수 있는 검증된 55개 설문지 라이브러리입니다.
phases:
prestudy:
type: prestudy
instrument: "tipi" # 10-item personality questionnaire
poststudy:
type: poststudy
instrument: "phq-9" # 9-item depression screening이들은 8개 범주에 걸쳐 있습니다. 성격(BFI-2, TIPI), 정신 건강(PHQ-9, GAD-7), 정서(PANAS), 자아 개념(RSE), 사회적 태도(SDO-7, MFQ), 응답 스타일, 단축형 버전, 그리고 주요 설문(ANES, GSS, ESS)에서 가져온 인구통계 배터리입니다.
소소한 수정
- 키프레임 보간을 사용한 비디오 객체 추적
- PDF 페이지에서의 바운딩 박스 어노테이션
- 외부 AI 설정 파일 지원
- 양식 레이아웃 그리드 개선
v2.2로 업그레이드하기
pip install --upgrade potato-annotation기존 v2.0 및 v2.1 설정은 변경 없이 계속 작동합니다. 새로운 것은 모두 추가 설정 블록을 통한 선택 사항입니다.
시작하기
- 새로운 기능, v2.2 기능 전체 개요
- 이벤트 어노테이션, N항 이벤트 구조
- 엔터티 연결, 지식 베이스 연결
- MACE, 어노테이터 역량 추정
- 내보내기 형식, 내보내기 CLI
- 설문 도구, 검증된 55개 설문지
변경된 설정 키를 포함한 전체 변경 로그는 저장소의 v2.2.0 릴리스 노트를 참조하세요.