Note: This post describes Potato 2.2 as it was at release. Some configuration keys and features have been updated in later versions. See the current documentation for up-to-date configuration syntax.

Nous sommes ravis d'annoncer Potato 2.2.0, une version majeure qui étend considérablement ce que vous pouvez annoter et comment vous gérez la qualité des annotations. Cette mise à jour ajoute 9 nouveaux schémas d'annotation, un système d'export extensible, l'estimation de compétence MACE, 55 instruments d'enquête validés et des sources de données distantes.

Nouveaux schémas d'annotation

Annotation d'événements

La fonctionnalité d'annotation phare de la v2.2 est l'annotation d'événements n-aires. Les événements se composent d'un span déclencheur (le mot indiquant l'événement) et de spans d'arguments avec des rôles sémantiques typés. Une visualisation en arcs moyeu-rayons connecte les déclencheurs à leurs arguments.

yaml

annotation_schemes:
  - annotation_type: event_annotation
    name: events
    span_schema: entities
    event_types:
      - type: "ATTACK"
        trigger_labels: ["EVENT_TRIGGER"]
        arguments:
          - role: "attacker"
            entity_types: ["PERSON", "ORGANIZATION"]
            required: true
          - role: "target"
            entity_types: ["PERSON", "ORGANIZATION", "LOCATION"]
            required: true

Cela ouvre la voie à l'extraction d'informations, l'étiquetage de rôles sémantiques et les tâches de construction de graphes de connaissances qui nécessitaient auparavant des outils personnalisés.

Lire la documentation de l'annotation d'événements →

Liaison d'entités

Les annotations de spans peuvent désormais être liées à des bases de connaissances externes. Les annotateurs surlignent du texte, assignent une étiquette, puis utilisent un modal de recherche pour trouver et lier l'entité correspondante dans Wikidata, UMLS ou une base de connaissances personnalisée.

yaml

annotation_schemes:
  - annotation_type: span
    name: ner
    labels: [PERSON, ORGANIZATION, LOCATION]
    entity_linking:
      enabled: true
      knowledge_bases:
        - name: wikidata
          type: wikidata
          language: en

Supporte le mode multi-sélection pour les entités ambiguës et plusieurs bases de connaissances dans une seule tâche.

Lire la documentation de la liaison d'entités →

Triage, comparaison par paires, coréférence et plus

Six types d'annotation supplémentaires complètent les ajouts de schémas de la v2.2 :

Triage -- Interface accepter/rejeter/passer pour un filtrage rapide des données avec avancement automatique et raccourcis clavier
Comparaison par paires -- A/B binaire ou curseur à échelle pour l'apprentissage des préférences et la collecte de données RLHF
Arbres de conversation -- Annotation arborescente hiérarchique avec notations par nœud et sélection de chemin
Chaînes de coréférence -- Regroupement des mentions coréférentes en chaînes avec indicateurs visuels
Masques de segmentation -- Nouveaux outils de remplissage, gomme et pinceau pour l'annotation pixel par pixel d'images
Spans discontinus -- allow_discontinuous: true pour les sélections de texte non contiguës

Annotation intelligente

Estimation de compétence MACE

MACE utilise un algorithme EM Bayésien variationnel pour estimer conjointement les étiquettes vraies et les scores de compétence des annotateurs (0.0-1.0). Il identifie les annotateurs fiables, détecte les spammeurs et produit des étiquettes prédites de meilleure qualité.

yaml

mace:
  enabled: true
  trigger_every_n: 10
  min_annotations_per_item: 3

MACE s'exécute automatiquement en arrière-plan et s'intègre au tableau de bord d'administration et au système d'adjudication.

Lire la documentation MACE →

Mise en surbrillance des options

Une nouvelle fonctionnalité IA qui analyse le contenu pour mettre en surbrillance les options les plus probablement correctes pour les tâches d'annotation discrètes. Les top-k options s'affichent à pleine opacité avec un indicateur étoile tandis que les options moins probables sont atténuées.

yaml

ai_support:
  option_highlighting:
    enabled: true
    top_k: 3
    dim_opacity: 0.4

Lire la documentation de la mise en surbrillance des options →

Ordonnancement par diversité

Les embeddings de sentence-transformers regroupent les éléments similaires, puis un échantillonnage round-robin présente les éléments de différents clusters. Cela réduit la fatigue des annotateurs et améliore la couverture de l'espace thématique.

yaml

assignment_strategy: diversity_clustering
diversity_ordering:
  enabled: true
  prefill_count: 100

Lire la documentation de l'ordonnancement par diversité →

Système d'export

Le nouveau CLI d'export (python -m potato.export) convertit les annotations en 6 formats standard de l'industrie avec une seule commande :

bash

python -m potato.export --config config.yaml --format coco --output ./export/
python -m potato.export --config config.yaml --format yolo --output ./export/
python -m potato.export --config config.yaml --format conll_2003 --output ./export/

Formats supportés : COCO, YOLO, Pascal VOC, CoNLL-2003, CoNLL-U et masques de segmentation. Le système est extensible -- créez des exporteurs personnalisés en héritant de BaseExporter.

Lire la documentation des formats d'export →

Sources de données distantes

Chargez des données d'annotation depuis des URLs, S3, Google Drive, Dropbox, des datasets HuggingFace, Google Sheets et des bases de données SQL :

yaml

data_sources:
  - type: huggingface
    dataset: "squad"
    split: "train"
 
  - type: s3
    bucket: "my-annotation-data"
    key: "datasets/items.jsonl"

Inclut le chargement partiel/incrémental pour les grands ensembles de données, la mise en cache locale et la gestion sécurisée des identifiants avec des variables d'environnement.

Lire la documentation des sources de données distantes →

Instruments d'enquête

Une bibliothèque de 55 questionnaires validés prêts à l'emploi dans les phases pré-étude et post-étude :

yaml

phases:
  prestudy:
    type: prestudy
    instrument: "tipi"      # 10-item personality questionnaire
 
  poststudy:
    type: poststudy
    instrument: "phq-9"     # 9-item depression screening

Les instruments couvrent 8 catégories : Personnalité (BFI-2, TIPI), Santé mentale (PHQ-9, GAD-7), Affect (PANAS), Concept de soi (RSE), Attitudes sociales (SDO-7, MFQ), Style de réponse, Versions courtes et Batteries démographiques provenant de grandes enquêtes (ANES, GSS, ESS).

Lire la documentation des instruments d'enquête →

Améliorations UX

Suivi d'objets vidéo avec interpolation d'images clés
Annotation de boîtes englobantes sur les pages PDF
Support de fichier de configuration IA externe
Améliorations de la grille de mise en page des formulaires

Mise à niveau vers la v2.2

bash

pip install --upgrade potato-annotation

Les configurations existantes v2.0 et v2.1 fonctionnent sans modification -- toutes les nouvelles fonctionnalités sont optionnelles via des blocs de configuration supplémentaires.

Pour commencer

Nouveautés -- Aperçu complet des fonctionnalités de la v2.2
Annotation d'événements -- Structures d'événements n-aires
Liaison d'entités -- Liaison à des bases de connaissances
MACE -- Estimation de compétence des annotateurs
Formats d'export -- CLI d'export
Instruments d'enquête -- 55 questionnaires validés

Des questions ou des commentaires ? Rejoignez notre Discord ou ouvrez un ticket sur GitHub.