Note: This post describes Potato 2.1 as it was at release. Some configuration keys and features have been updated in later versions. See the current documentation for up-to-date configuration syntax.

Nos complace anunciar Potato 2.1.0, una versión repleta de funciones que trae cinco capacidades principales a la plataforma de anotación. Esta actualización se enfoca en la visualización de contenido multimodal, anotación visual asistida por IA y anotación de relaciones más rica.

Sistema de Visualización de Instancias

La función principal de v2.1 es el nuevo bloque de configuración instance_display. Anteriormente, mostrar una imagen junto a botones de radio requería soluciones incómodas como crear un esquema image_annotation con min_annotations: 0. Ahora puedes separar explícitamente qué contenido mostrar de qué anotaciones recopilar.

yaml

instance_display:
  layout:
    direction: horizontal
    gap: 24px
  fields:
    - key: image_url
      type: image
      label: "Image to Classify"
      display_options:
        max_width: 600
        zoomable: true
    - key: description
      type: text
      label: "Context"
 
annotation_schemes:
  - annotation_type: radio
    name: category
    labels: [nature, urban, people, objects]

La visualización de instancias soporta 11 tipos de contenido: text, html, image, video, audio, dialogue, pairwise, code, spreadsheet, document y pdf. Puedes combinar múltiples campos de visualización con cualquier esquema de anotación, organizarlos horizontal o verticalmente, y habilitar anotación de spans en campos de texto con span_target: true.

Una función destacada son las calificaciones por turno de diálogo -- puedes añadir widgets de calificación Likert en línea a turnos individuales de conversación, permitiendo a los anotadores calificar hablantes específicos sin salir de la vista de conversación.

Lee la documentación completa de Visualización de Instancias →

Anotación de Spans Multi-Campo

La anotación de spans ahora soporta una opción target_field, habilitando la anotación a través de múltiples campos de texto en la misma instancia de datos. Esto es esencial para tareas como evaluación de resúmenes donde necesitas anotar entidades tanto en un documento fuente como en su resumen.

yaml

annotation_schemes:
  - annotation_type: span
    name: source_entities
    target_field: "source_text"
    labels: [PERSON, ORGANIZATION, LOCATION]
 
  - annotation_type: span
    name: summary_entities
    target_field: "summary"
    labels: [PERSON, ORGANIZATION, LOCATION]

Las anotaciones de salida se indexan por nombre de campo, dejando claro a qué campo de texto pertenece cada span.

Lee la documentación actualizada de Anotación de Spans →

Vinculación de Spans

El nuevo tipo de anotación span_link permite la extracción de relaciones creando relaciones tipadas entre spans anotados. Esto desbloquea tareas como construcción de grafos de conocimiento, resolución de correferencia y análisis del discurso.

yaml

annotation_schemes:
  - annotation_type: span
    name: entities
    labels:
      - name: "PERSON"
        color: "#3b82f6"
      - name: "ORGANIZATION"
        color: "#22c55e"
 
  - annotation_type: span_link
    name: relations
    span_schema: entities
    link_types:
      - name: "WORKS_FOR"
        directed: true
        allowed_source_labels: ["PERSON"]
        allowed_target_labels: ["ORGANIZATION"]
        color: "#dc2626"
      - name: "COLLABORATES_WITH"
        directed: false
        allowed_source_labels: ["PERSON"]
        allowed_target_labels: ["PERSON"]
        color: "#06b6d4"

Las capacidades clave incluyen enlaces dirigidos y no dirigidos, relaciones n-arias (enlaces entre más de dos spans), visualización de arcos sobre el texto, y restricciones de etiquetas que restringen qué tipos de entidades pueden participar en cada tipo de relación.

Lee la documentación completa de Vinculación de Spans →

Soporte de IA Visual

Potato 2.1 introduce cuatro nuevos endpoints de visión que llevan asistencia de IA a las tareas de anotación de imágenes y video. Esta es una expansión importante de las capacidades de IA de Potato más allá del texto.

Cuatro Endpoints de Visión

YOLO -- Ideal para detección de objetos rápida y precisa usando inferencia local. Soporta variantes de YOLOv8 y YOLO-World para detección de vocabulario abierto.

yaml

ai_support:
  enabled: true
  endpoint_type: "yolo"
  ai_config:
    model: "yolov8m.pt"
    confidence_threshold: 0.5
    iou_threshold: 0.45

Ollama Vision -- Ejecuta modelos de visión-lenguaje localmente con Ollama. Soporta LLaVA, Llama 3.2 Vision, Qwen2.5-VL, BakLLaVA y Moondream.

yaml

ai_support:
  enabled: true
  endpoint_type: "ollama_vision"
  ai_config:
    model: "llava:latest"
    base_url: "http://localhost:11434"

OpenAI Vision -- Análisis de visión basado en la nube usando GPT-4o con niveles de detalle configurables.

yaml

ai_support:
  enabled: true
  endpoint_type: "openai_vision"
  ai_config:
    api_key: "${OPENAI_API_KEY}"
    model: "gpt-4o"
    detail: "auto"

Anthropic Vision -- Claude con capacidades de visión para comprensión y clasificación de imágenes.

yaml

ai_support:
  enabled: true
  endpoint_type: "anthropic_vision"
  ai_config:
    api_key: "${ANTHROPIC_API_KEY}"
    model: "claude-sonnet-4-20250514"

Funciones de IA para Imágenes

Para tareas de anotación de imágenes, la IA visual proporciona cuatro modos de asistencia:

Detección -- Encuentra objetos que coinciden con tus etiquetas configuradas y dibuja cuadros delimitadores sugeridos como superposiciones punteadas
Pre-anotación (Auto) -- Detecta automáticamente todos los objetos en la imagen y crea sugerencias para revisión humana
Clasificación -- Clasifica una región seleccionada o la imagen completa con una puntuación de confianza
Pistas -- Proporciona orientación sin revelar ubicaciones exactas, útil para entrenamiento de anotadores

yaml

annotation_schemes:
  - annotation_type: image_annotation
    name: object_detection
    tools: [bbox, polygon]
    labels:
      - name: "person"
        color: "#FF6B6B"
      - name: "car"
        color: "#4ECDC4"
    ai_support:
      enabled: true
      features:
        detection: true
        pre_annotate: true
        classification: false
        hint: true

Funciones de IA para Video

Para tareas de video, la IA visual añade detección de escenas (identificación de límites de escena y sugerencia de segmentos temporales), detección de fotogramas clave (encontrar momentos significativos) y seguimiento de objetos (sugerir posiciones a través de fotogramas).

Flujo de Trabajo Aceptar/Rechazar

Las sugerencias de IA aparecen como superposiciones punteadas que los anotadores pueden aceptar (doble clic), rechazar (clic derecho), aceptar todas o limpiar todas -- manteniendo a los humanos en el control mientras se acelera la anotación.

Endpoints Separados para Visual y Texto

Puedes configurar diferentes endpoints de IA para tareas de texto y visuales, usando el mejor modelo para cada tipo de contenido:

yaml

ai_support:
  enabled: true
  endpoint_type: "ollama"          # Text annotations
  visual_endpoint_type: "yolo"     # Image/video annotations
  ai_config:
    model: "llama3.2"
  visual_ai_config:
    model: "yolov8m.pt"
    confidence_threshold: 0.5

Lee la documentación completa de Soporte de IA Visual →

Personalización de Diseño

Potato 2.1 añade soporte para diseños visuales personalizados sofisticados. Potato genera un archivo editable layouts/task_layout.html por defecto, y puedes proporcionar una plantilla HTML totalmente personalizada con diseños de cuadrícula CSS, opciones codificadas por color y estilización de secciones.

yaml

task_layout: layouts/custom_task_layout.html

Se incluyen tres diseños de ejemplo en project-hub/layout-examples/:

Moderación de contenido -- Banner de advertencia, cuadrícula de 2 columnas, severidad codificada por color
QA de diálogo -- Metadatos del caso, calificaciones Likert circulares, evaluaciones agrupadas
Revisión médica -- Estilización médica profesional, informes estructurados

Los diseños personalizados funcionan junto al nuevo sistema instance_display -- el contenido de visualización se renderiza sobre tus formularios de anotación personalizados.

Lee la documentación completa de Personalización de Diseño →

Otras Mejoras

Justificaciones de Etiquetas

Una cuarta capacidad de IA se une a las pistas, el resaltado de palabras clave y las sugerencias de etiquetas. Las justificaciones generan explicaciones equilibradas de por qué cada etiqueta podría aplicarse, ayudando a los anotadores a comprender el razonamiento detrás de diferentes clasificaciones.

yaml

ai_support:
  features:
    rationales:
      enabled: true

Correcciones de Errores y Pruebas

50+ nuevas pruebas para mayor confiabilidad
Mejoras de diseño responsivo en todos los tipos de anotación
Organización mejorada del project-hub con ejemplos de diseño

Actualización a v2.1

bash

pip install --upgrade potato-annotation

Las configuraciones existentes de v2.0 funcionan sin cambios -- todas las nuevas funciones son opcionales a través de bloques de configuración adicionales como instance_display, esquemas span_link y endpoints de IA visual.

Para Comenzar

Novedades -- Visión general completa de funciones de v2.1
Visualización de Instancias -- Visualización de contenido multimodal
Soporte de IA Visual -- IA para anotación de imágenes y video
Vinculación de Spans -- Anotación de relaciones entre entidades
Personalización de Diseño -- Plantillas HTML personalizadas

¿Tienes preguntas o comentarios? Únete a nuestro Discord o abre un issue en GitHub.