Skip to content
Announcements5 min read

Potato 2.2: Eventos, Vinculación de Entidades, Exportación y 55 Instrumentos de Encuesta

Potato 2.2.0 añade 9 nuevos esquemas de anotación, un sistema de exportación extensible, estimación de competencia MACE, 55 instrumentos de encuesta validados y fuentes de datos remotas.

Potato Team·

Potato 2.2: Eventos, Vinculación de Entidades, Exportación y 55 Instrumentos de Encuesta

Nos complace anunciar Potato 2.2.0, una versión mayor que expande significativamente lo que puedes anotar y cómo gestionas la calidad de la anotación. Esta actualización añade 9 nuevos esquemas de anotación, un sistema de exportación extensible, estimación de competencia MACE, 55 instrumentos de encuesta validados y fuentes de datos remotas.

Nuevos Esquemas de Anotación

Anotación de Eventos

La función principal de anotación de v2.2 es la anotación de eventos N-arios. Los eventos consisten en un span disparador (la palabra que indica el evento) y spans de argumentos con roles semánticos tipados. Una visualización de arcos hub-spoke conecta los disparadores con sus argumentos.

yaml
annotation_schemes:
  - annotation_type: event_annotation
    name: events
    span_schema: entities
    event_types:
      - type: "ATTACK"
        trigger_labels: ["EVENT_TRIGGER"]
        arguments:
          - role: "attacker"
            entity_types: ["PERSON", "ORGANIZATION"]
            required: true
          - role: "target"
            entity_types: ["PERSON", "ORGANIZATION", "LOCATION"]
            required: true

Esto abre tareas de extracción de información, etiquetado de roles semánticos y construcción de grafos de conocimiento que anteriormente requerían herramientas personalizadas.

Lee la documentación de Anotación de Eventos →

Vinculación de Entidades

Las anotaciones de spans ahora pueden vincularse a bases de conocimiento externas. Los anotadores resaltan texto, asignan una etiqueta y luego usan un modal de búsqueda para encontrar y vincular la entidad correspondiente de Wikidata, UMLS o una KB personalizada.

yaml
annotation_schemes:
  - annotation_type: span
    name: ner
    labels: [PERSON, ORGANIZATION, LOCATION]
    entity_linking:
      enabled: true
      knowledge_bases:
        - name: wikidata
          type: wikidata
          language: en

Soporta modo de selección múltiple para entidades ambiguas y múltiples bases de conocimiento en una sola tarea.

Lee la documentación de Vinculación de Entidades →

Triaje, Comparación por Pares, Correferencia y Más

Seis tipos de anotación adicionales completan las adiciones de esquemas de v2.2:

  • Triaje -- Interfaz de aceptar/rechazar/omitir para cribado rápido de datos con avance automático y atajos de teclado
  • Comparación por Pares -- Binario A/B o deslizador de escala para aprendizaje de preferencias y recopilación de datos RLHF
  • Árboles de Conversación -- Anotación de árboles jerárquicos con calificaciones por nodo y selección de rutas
  • Cadenas de Correferencia -- Agrupar menciones correferentes en cadenas con indicadores visuales
  • Máscaras de Segmentación -- Nuevas herramientas de relleno, borrador y pincel para anotación de imágenes a nivel de píxel
  • Spans Discontinuos -- allow_discontinuous: true para selecciones de texto no contiguas

Anotación Inteligente

Estimación de Competencia MACE

MACE usa un algoritmo EM de Bayes Variacional para estimar conjuntamente las etiquetas verdaderas y las puntuaciones de competencia de los anotadores (0.0-1.0). Identifica anotadores confiables, detecta spammers y produce etiquetas predichas de mayor calidad.

yaml
mace:
  enabled: true
  trigger_every_n: 10
  min_annotations_per_item: 3

MACE se ejecuta automáticamente en segundo plano y se integra con el panel de administración y el sistema de adjudicación.

Lee la documentación de MACE →

Resaltado de Opciones

Una nueva función de IA que analiza el contenido para resaltar las opciones más probablemente correctas para tareas de anotación discretas. Las opciones top-k se muestran con opacidad completa con un indicador de estrella mientras que las opciones menos probables se atenúan.

yaml
ai_support:
  option_highlighting:
    enabled: true
    top_k: 3
    dim_opacity: 0.4

Lee la documentación de Resaltado de Opciones →

Ordenamiento por Diversidad

Los embeddings de sentence-transformer agrupan elementos similares, luego un muestreo round-robin presenta elementos de diferentes clusters. Esto reduce la fatiga del anotador y mejora la cobertura del espacio temático.

yaml
assignment_strategy: diversity_clustering
diversity_ordering:
  enabled: true
  prefill_count: 100

Lee la documentación de Ordenamiento por Diversidad →

Sistema de Exportación

El nuevo CLI de exportación (python -m potato.export) convierte anotaciones a 6 formatos estándar de la industria con un solo comando:

bash
python -m potato.export --config config.yaml --format coco --output ./export/
python -m potato.export --config config.yaml --format yolo --output ./export/
python -m potato.export --config config.yaml --format conll_2003 --output ./export/

Formatos soportados: COCO, YOLO, Pascal VOC, CoNLL-2003, CoNLL-U y Máscaras de Segmentación. El sistema es extensible -- crea exportadores personalizados heredando de BaseExporter.

Lee la documentación de Formatos de Exportación →

Fuentes de Datos Remotas

Carga datos de anotación desde URLs, S3, Google Drive, Dropbox, datasets de Hugging Face, Google Sheets y bases de datos SQL:

yaml
data_sources:
  - type: huggingface
    dataset: "squad"
    split: "train"
 
  - type: s3
    bucket: "my-annotation-data"
    key: "datasets/items.jsonl"

Incluye carga parcial/incremental para datasets grandes, caché local y gestión segura de credenciales con variables de entorno.

Lee la documentación de Fuentes de Datos Remotas →

Instrumentos de Encuesta

Una biblioteca de 55 cuestionarios validados listos para usar en fases de pre-estudio y post-estudio:

yaml
phases:
  prestudy:
    type: prestudy
    instrument: "tipi"      # 10-item personality questionnaire
 
  poststudy:
    type: poststudy
    instrument: "phq-9"     # 9-item depression screening

Los instrumentos abarcan 8 categorías: Personalidad (BFI-2, TIPI), Salud Mental (PHQ-9, GAD-7), Afecto (PANAS), Autoconcepto (RSE), Actitudes Sociales (SDO-7, MFQ), Estilo de Respuesta, versiones abreviadas y Baterías Demográficas de encuestas importantes (ANES, GSS, ESS).

Lee la documentación de Instrumentos de Encuesta →

Mejoras de UX

  • Seguimiento de objetos en video con interpolación de fotogramas clave
  • Anotación de cuadros delimitadores en páginas PDF
  • Soporte de archivo de configuración de IA externo
  • Mejoras en el diseño de cuadrícula de formularios

Actualización a v2.2

bash
pip install --upgrade potato-annotation

Las configuraciones existentes de v2.0 y v2.1 funcionan sin cambios -- todas las nuevas funciones son opcionales a través de bloques de configuración adicionales.

Para Comenzar


¿Tienes preguntas o comentarios? Únete a nuestro Discord o abre un issue en GitHub.