Potato 2.2 : Événements, liaison d'entités, export et 55 instruments d'enquête
Potato 2.2.0 ajoute 9 nouveaux schémas d'annotation, un système d'export extensible, l'estimation de compétence MACE, 55 instruments d'enquête validés et des sources de données distantes.
Potato 2.2 : Événements, liaison d'entités, export et 55 instruments d'enquête
Nous sommes ravis d'annoncer Potato 2.2.0, une version majeure qui étend considérablement ce que vous pouvez annoter et comment vous gérez la qualité des annotations. Cette mise à jour ajoute 9 nouveaux schémas d'annotation, un système d'export extensible, l'estimation de compétence MACE, 55 instruments d'enquête validés et des sources de données distantes.
Nouveaux schémas d'annotation
Annotation d'événements
La fonctionnalité d'annotation phare de la v2.2 est l'annotation d'événements n-aires. Les événements se composent d'un span déclencheur (le mot indiquant l'événement) et de spans d'arguments avec des rôles sémantiques typés. Une visualisation en arcs moyeu-rayons connecte les déclencheurs à leurs arguments.
annotation_schemes:
- annotation_type: event_annotation
name: events
span_schema: entities
event_types:
- type: "ATTACK"
trigger_labels: ["EVENT_TRIGGER"]
arguments:
- role: "attacker"
entity_types: ["PERSON", "ORGANIZATION"]
required: true
- role: "target"
entity_types: ["PERSON", "ORGANIZATION", "LOCATION"]
required: trueCela ouvre la voie à l'extraction d'informations, l'étiquetage de rôles sémantiques et les tâches de construction de graphes de connaissances qui nécessitaient auparavant des outils personnalisés.
Lire la documentation de l'annotation d'événements →
Liaison d'entités
Les annotations de spans peuvent désormais être liées à des bases de connaissances externes. Les annotateurs surlignent du texte, assignent une étiquette, puis utilisent un modal de recherche pour trouver et lier l'entité correspondante dans Wikidata, UMLS ou une base de connaissances personnalisée.
annotation_schemes:
- annotation_type: span
name: ner
labels: [PERSON, ORGANIZATION, LOCATION]
entity_linking:
enabled: true
knowledge_bases:
- name: wikidata
type: wikidata
language: enSupporte le mode multi-sélection pour les entités ambiguës et plusieurs bases de connaissances dans une seule tâche.
Lire la documentation de la liaison d'entités →
Triage, comparaison par paires, coréférence et plus
Six types d'annotation supplémentaires complètent les ajouts de schémas de la v2.2 :
- Triage -- Interface accepter/rejeter/passer pour un filtrage rapide des données avec avancement automatique et raccourcis clavier
- Comparaison par paires -- A/B binaire ou curseur à échelle pour l'apprentissage des préférences et la collecte de données RLHF
- Arbres de conversation -- Annotation arborescente hiérarchique avec notations par nœud et sélection de chemin
- Chaînes de coréférence -- Regroupement des mentions coréférentes en chaînes avec indicateurs visuels
- Masques de segmentation -- Nouveaux outils de remplissage, gomme et pinceau pour l'annotation pixel par pixel d'images
- Spans discontinus --
allow_discontinuous: truepour les sélections de texte non contiguës
Annotation intelligente
Estimation de compétence MACE
MACE utilise un algorithme EM Bayésien variationnel pour estimer conjointement les étiquettes vraies et les scores de compétence des annotateurs (0.0-1.0). Il identifie les annotateurs fiables, détecte les spammeurs et produit des étiquettes prédites de meilleure qualité.
mace:
enabled: true
trigger_every_n: 10
min_annotations_per_item: 3MACE s'exécute automatiquement en arrière-plan et s'intègre au tableau de bord d'administration et au système d'adjudication.
Mise en surbrillance des options
Une nouvelle fonctionnalité IA qui analyse le contenu pour mettre en surbrillance les options les plus probablement correctes pour les tâches d'annotation discrètes. Les top-k options s'affichent à pleine opacité avec un indicateur étoile tandis que les options moins probables sont atténuées.
ai_support:
option_highlighting:
enabled: true
top_k: 3
dim_opacity: 0.4Lire la documentation de la mise en surbrillance des options →
Ordonnancement par diversité
Les embeddings de sentence-transformers regroupent les éléments similaires, puis un échantillonnage round-robin présente les éléments de différents clusters. Cela réduit la fatigue des annotateurs et améliore la couverture de l'espace thématique.
assignment_strategy: diversity_clustering
diversity_ordering:
enabled: true
prefill_count: 100Lire la documentation de l'ordonnancement par diversité →
Système d'export
Le nouveau CLI d'export (python -m potato.export) convertit les annotations en 6 formats standard de l'industrie avec une seule commande :
python -m potato.export --config config.yaml --format coco --output ./export/
python -m potato.export --config config.yaml --format yolo --output ./export/
python -m potato.export --config config.yaml --format conll_2003 --output ./export/Formats supportés : COCO, YOLO, Pascal VOC, CoNLL-2003, CoNLL-U et masques de segmentation. Le système est extensible -- créez des exporteurs personnalisés en héritant de BaseExporter.
Lire la documentation des formats d'export →
Sources de données distantes
Chargez des données d'annotation depuis des URLs, S3, Google Drive, Dropbox, des datasets HuggingFace, Google Sheets et des bases de données SQL :
data_sources:
- type: huggingface
dataset: "squad"
split: "train"
- type: s3
bucket: "my-annotation-data"
key: "datasets/items.jsonl"Inclut le chargement partiel/incrémental pour les grands ensembles de données, la mise en cache locale et la gestion sécurisée des identifiants avec des variables d'environnement.
Lire la documentation des sources de données distantes →
Instruments d'enquête
Une bibliothèque de 55 questionnaires validés prêts à l'emploi dans les phases pré-étude et post-étude :
phases:
prestudy:
type: prestudy
instrument: "tipi" # 10-item personality questionnaire
poststudy:
type: poststudy
instrument: "phq-9" # 9-item depression screeningLes instruments couvrent 8 catégories : Personnalité (BFI-2, TIPI), Santé mentale (PHQ-9, GAD-7), Affect (PANAS), Concept de soi (RSE), Attitudes sociales (SDO-7, MFQ), Style de réponse, Versions courtes et Batteries démographiques provenant de grandes enquêtes (ANES, GSS, ESS).
Lire la documentation des instruments d'enquête →
Améliorations UX
- Suivi d'objets vidéo avec interpolation d'images clés
- Annotation de boîtes englobantes sur les pages PDF
- Support de fichier de configuration IA externe
- Améliorations de la grille de mise en page des formulaires
Mise à niveau vers la v2.2
pip install --upgrade potato-annotationLes configurations existantes v2.0 et v2.1 fonctionnent sans modification -- toutes les nouvelles fonctionnalités sont optionnelles via des blocs de configuration supplémentaires.
Pour commencer
- Nouveautés -- Aperçu complet des fonctionnalités de la v2.2
- Annotation d'événements -- Structures d'événements n-aires
- Liaison d'entités -- Liaison à des bases de connaissances
- MACE -- Estimation de compétence des annotateurs
- Formats d'export -- CLI d'export
- Instruments d'enquête -- 55 questionnaires validés
Des questions ou des commentaires ? Rejoignez notre Discord ou ouvrez un ticket sur GitHub.