Note: This post describes Potato 2.2 as it was at release. Some configuration keys and features have been updated in later versions. See the current documentation for up-to-date configuration syntax.

Nos complace anunciar Potato 2.2.0, una versión mayor que expande significativamente lo que puedes anotar y cómo gestionas la calidad de la anotación. Esta actualización añade 9 nuevos esquemas de anotación, un sistema de exportación extensible, estimación de competencia MACE, 55 instrumentos de encuesta validados y fuentes de datos remotas.

Nuevos Esquemas de Anotación

Anotación de Eventos

La función principal de anotación de v2.2 es la anotación de eventos N-arios. Los eventos consisten en un span disparador (la palabra que indica el evento) y spans de argumentos con roles semánticos tipados. Una visualización de arcos hub-spoke conecta los disparadores con sus argumentos.

yaml

annotation_schemes:
  - annotation_type: event_annotation
    name: events
    span_schema: entities
    event_types:
      - type: "ATTACK"
        trigger_labels: ["EVENT_TRIGGER"]
        arguments:
          - role: "attacker"
            entity_types: ["PERSON", "ORGANIZATION"]
            required: true
          - role: "target"
            entity_types: ["PERSON", "ORGANIZATION", "LOCATION"]
            required: true

Esto abre tareas de extracción de información, etiquetado de roles semánticos y construcción de grafos de conocimiento que anteriormente requerían herramientas personalizadas.

Lee la documentación de Anotación de Eventos →

Vinculación de Entidades

Las anotaciones de spans ahora pueden vincularse a bases de conocimiento externas. Los anotadores resaltan texto, asignan una etiqueta y luego usan un modal de búsqueda para encontrar y vincular la entidad correspondiente de Wikidata, UMLS o una KB personalizada.

yaml

annotation_schemes:
  - annotation_type: span
    name: ner
    labels: [PERSON, ORGANIZATION, LOCATION]
    entity_linking:
      enabled: true
      knowledge_bases:
        - name: wikidata
          type: wikidata
          language: en

Soporta modo de selección múltiple para entidades ambiguas y múltiples bases de conocimiento en una sola tarea.

Lee la documentación de Vinculación de Entidades →

Triaje, Comparación por Pares, Correferencia y Más

Seis tipos de anotación adicionales completan las adiciones de esquemas de v2.2:

Triaje -- Interfaz de aceptar/rechazar/omitir para cribado rápido de datos con avance automático y atajos de teclado
Comparación por Pares -- Binario A/B o deslizador de escala para aprendizaje de preferencias y recopilación de datos RLHF
Árboles de Conversación -- Anotación de árboles jerárquicos con calificaciones por nodo y selección de rutas
Cadenas de Correferencia -- Agrupar menciones correferentes en cadenas con indicadores visuales
Máscaras de Segmentación -- Nuevas herramientas de relleno, borrador y pincel para anotación de imágenes a nivel de píxel
Spans Discontinuos -- allow_discontinuous: true para selecciones de texto no contiguas

Anotación Inteligente

Estimación de Competencia MACE

MACE usa un algoritmo EM de Bayes Variacional para estimar conjuntamente las etiquetas verdaderas y las puntuaciones de competencia de los anotadores (0.0-1.0). Identifica anotadores confiables, detecta spammers y produce etiquetas predichas de mayor calidad.

yaml

mace:
  enabled: true
  trigger_every_n: 10
  min_annotations_per_item: 3

MACE se ejecuta automáticamente en segundo plano y se integra con el panel de administración y el sistema de adjudicación.

Lee la documentación de MACE →

Resaltado de Opciones

Una nueva función de IA que analiza el contenido para resaltar las opciones más probablemente correctas para tareas de anotación discretas. Las opciones top-k se muestran con opacidad completa con un indicador de estrella mientras que las opciones menos probables se atenúan.

yaml

ai_support:
  option_highlighting:
    enabled: true
    top_k: 3
    dim_opacity: 0.4

Lee la documentación de Resaltado de Opciones →

Ordenamiento por Diversidad

Los embeddings de sentence-transformer agrupan elementos similares, luego un muestreo round-robin presenta elementos de diferentes clusters. Esto reduce la fatiga del anotador y mejora la cobertura del espacio temático.

yaml

assignment_strategy: diversity_clustering
diversity_ordering:
  enabled: true
  prefill_count: 100

Lee la documentación de Ordenamiento por Diversidad →

Sistema de Exportación

El nuevo CLI de exportación (python -m potato.export) convierte anotaciones a 6 formatos estándar de la industria con un solo comando:

bash

python -m potato.export --config config.yaml --format coco --output ./export/
python -m potato.export --config config.yaml --format yolo --output ./export/
python -m potato.export --config config.yaml --format conll_2003 --output ./export/

Formatos soportados: COCO, YOLO, Pascal VOC, CoNLL-2003, CoNLL-U y Máscaras de Segmentación. El sistema es extensible -- crea exportadores personalizados heredando de BaseExporter.

Lee la documentación de Formatos de Exportación →

Fuentes de Datos Remotas

Carga datos de anotación desde URLs, S3, Google Drive, Dropbox, datasets de Hugging Face, Google Sheets y bases de datos SQL:

yaml

data_sources:
  - type: huggingface
    dataset: "squad"
    split: "train"
 
  - type: s3
    bucket: "my-annotation-data"
    key: "datasets/items.jsonl"

Incluye carga parcial/incremental para datasets grandes, caché local y gestión segura de credenciales con variables de entorno.

Lee la documentación de Fuentes de Datos Remotas →

Instrumentos de Encuesta

Una biblioteca de 55 cuestionarios validados listos para usar en fases de pre-estudio y post-estudio:

yaml

phases:
  prestudy:
    type: prestudy
    instrument: "tipi"      # 10-item personality questionnaire
 
  poststudy:
    type: poststudy
    instrument: "phq-9"     # 9-item depression screening

Los instrumentos abarcan 8 categorías: Personalidad (BFI-2, TIPI), Salud Mental (PHQ-9, GAD-7), Afecto (PANAS), Autoconcepto (RSE), Actitudes Sociales (SDO-7, MFQ), Estilo de Respuesta, versiones abreviadas y Baterías Demográficas de encuestas importantes (ANES, GSS, ESS).

Lee la documentación de Instrumentos de Encuesta →

Mejoras de UX

Seguimiento de objetos en video con interpolación de fotogramas clave
Anotación de cuadros delimitadores en páginas PDF
Soporte de archivo de configuración de IA externo
Mejoras en el diseño de cuadrícula de formularios

Actualización a v2.2

bash

pip install --upgrade potato-annotation

Las configuraciones existentes de v2.0 y v2.1 funcionan sin cambios -- todas las nuevas funciones son opcionales a través de bloques de configuración adicionales.

Para Comenzar

Novedades -- Visión general completa de funciones de v2.2
Anotación de Eventos -- Estructuras de eventos N-arios
Vinculación de Entidades -- Vinculación a bases de conocimiento
MACE -- Estimación de competencia de anotadores
Formatos de Exportación -- CLI de exportación
Instrumentos de Encuesta -- 55 cuestionarios validados

¿Tienes preguntas o comentarios? Únete a nuestro Discord o abre un issue en GitHub.