Potato 2.1: Visualización de Instancias, IA Visual y Vinculación de Spans
Potato 2.1.0 trae el sistema de visualización de instancias, soporte de IA visual para anotación de imágenes y video, vinculación de spans, spans multi-campo y personalización de diseño.
Potato 2.1: Visualización de Instancias, IA Visual y Vinculación de Spans
Nos complace anunciar Potato 2.1.0, una versión repleta de funciones que trae cinco capacidades principales a la plataforma de anotación. Esta actualización se enfoca en la visualización de contenido multimodal, anotación visual asistida por IA y anotación de relaciones más rica.
Sistema de Visualización de Instancias
La función principal de v2.1 es el nuevo bloque de configuración instance_display. Anteriormente, mostrar una imagen junto a botones de radio requería soluciones incómodas como crear un esquema image_annotation con min_annotations: 0. Ahora puedes separar explícitamente qué contenido mostrar de qué anotaciones recopilar.
instance_display:
layout:
direction: horizontal
gap: 24px
fields:
- key: image_url
type: image
label: "Image to Classify"
display_options:
max_width: 600
zoomable: true
- key: description
type: text
label: "Context"
annotation_schemes:
- annotation_type: radio
name: category
labels: [nature, urban, people, objects]La visualización de instancias soporta 11 tipos de contenido: text, html, image, video, audio, dialogue, pairwise, code, spreadsheet, document y pdf. Puedes combinar múltiples campos de visualización con cualquier esquema de anotación, organizarlos horizontal o verticalmente, y habilitar anotación de spans en campos de texto con span_target: true.
Una función destacada son las calificaciones por turno de diálogo -- puedes añadir widgets de calificación Likert en línea a turnos individuales de conversación, permitiendo a los anotadores calificar hablantes específicos sin salir de la vista de conversación.
Lee la documentación completa de Visualización de Instancias →
Anotación de Spans Multi-Campo
La anotación de spans ahora soporta una opción target_field, habilitando la anotación a través de múltiples campos de texto en la misma instancia de datos. Esto es esencial para tareas como evaluación de resúmenes donde necesitas anotar entidades tanto en un documento fuente como en su resumen.
annotation_schemes:
- annotation_type: span
name: source_entities
target_field: "source_text"
labels: [PERSON, ORGANIZATION, LOCATION]
- annotation_type: span
name: summary_entities
target_field: "summary"
labels: [PERSON, ORGANIZATION, LOCATION]Las anotaciones de salida se indexan por nombre de campo, dejando claro a qué campo de texto pertenece cada span.
Lee la documentación actualizada de Anotación de Spans →
Vinculación de Spans
El nuevo tipo de anotación span_link permite la extracción de relaciones creando relaciones tipadas entre spans anotados. Esto desbloquea tareas como construcción de grafos de conocimiento, resolución de correferencia y análisis del discurso.
annotation_schemes:
- annotation_type: span
name: entities
labels:
- name: "PERSON"
color: "#3b82f6"
- name: "ORGANIZATION"
color: "#22c55e"
- annotation_type: span_link
name: relations
span_schema: entities
link_types:
- name: "WORKS_FOR"
directed: true
allowed_source_labels: ["PERSON"]
allowed_target_labels: ["ORGANIZATION"]
color: "#dc2626"
- name: "COLLABORATES_WITH"
directed: false
allowed_source_labels: ["PERSON"]
allowed_target_labels: ["PERSON"]
color: "#06b6d4"Las capacidades clave incluyen enlaces dirigidos y no dirigidos, relaciones n-arias (enlaces entre más de dos spans), visualización de arcos sobre el texto, y restricciones de etiquetas que restringen qué tipos de entidades pueden participar en cada tipo de relación.
Lee la documentación completa de Vinculación de Spans →
Soporte de IA Visual
Potato 2.1 introduce cuatro nuevos endpoints de visión que llevan asistencia de IA a las tareas de anotación de imágenes y video. Esta es una expansión importante de las capacidades de IA de Potato más allá del texto.
Cuatro Endpoints de Visión
YOLO -- Ideal para detección de objetos rápida y precisa usando inferencia local. Soporta variantes de YOLOv8 y YOLO-World para detección de vocabulario abierto.
ai_support:
enabled: true
endpoint_type: "yolo"
ai_config:
model: "yolov8m.pt"
confidence_threshold: 0.5
iou_threshold: 0.45Ollama Vision -- Ejecuta modelos de visión-lenguaje localmente con Ollama. Soporta LLaVA, Llama 3.2 Vision, Qwen2.5-VL, BakLLaVA y Moondream.
ai_support:
enabled: true
endpoint_type: "ollama_vision"
ai_config:
model: "llava:latest"
base_url: "http://localhost:11434"OpenAI Vision -- Análisis de visión basado en la nube usando GPT-4o con niveles de detalle configurables.
ai_support:
enabled: true
endpoint_type: "openai_vision"
ai_config:
api_key: "${OPENAI_API_KEY}"
model: "gpt-4o"
detail: "auto"Anthropic Vision -- Claude con capacidades de visión para comprensión y clasificación de imágenes.
ai_support:
enabled: true
endpoint_type: "anthropic_vision"
ai_config:
api_key: "${ANTHROPIC_API_KEY}"
model: "claude-sonnet-4-20250514"Funciones de IA para Imágenes
Para tareas de anotación de imágenes, la IA visual proporciona cuatro modos de asistencia:
- Detección -- Encuentra objetos que coinciden con tus etiquetas configuradas y dibuja cuadros delimitadores sugeridos como superposiciones punteadas
- Pre-anotación (Auto) -- Detecta automáticamente todos los objetos en la imagen y crea sugerencias para revisión humana
- Clasificación -- Clasifica una región seleccionada o la imagen completa con una puntuación de confianza
- Pistas -- Proporciona orientación sin revelar ubicaciones exactas, útil para entrenamiento de anotadores
annotation_schemes:
- annotation_type: image_annotation
name: object_detection
tools: [bbox, polygon]
labels:
- name: "person"
color: "#FF6B6B"
- name: "car"
color: "#4ECDC4"
ai_support:
enabled: true
features:
detection: true
pre_annotate: true
classification: false
hint: trueFunciones de IA para Video
Para tareas de video, la IA visual añade detección de escenas (identificación de límites de escena y sugerencia de segmentos temporales), detección de fotogramas clave (encontrar momentos significativos) y seguimiento de objetos (sugerir posiciones a través de fotogramas).
Flujo de Trabajo Aceptar/Rechazar
Las sugerencias de IA aparecen como superposiciones punteadas que los anotadores pueden aceptar (doble clic), rechazar (clic derecho), aceptar todas o limpiar todas -- manteniendo a los humanos en el control mientras se acelera la anotación.
Endpoints Separados para Visual y Texto
Puedes configurar diferentes endpoints de IA para tareas de texto y visuales, usando el mejor modelo para cada tipo de contenido:
ai_support:
enabled: true
endpoint_type: "ollama" # Text annotations
visual_endpoint_type: "yolo" # Image/video annotations
ai_config:
model: "llama3.2"
visual_ai_config:
model: "yolov8m.pt"
confidence_threshold: 0.5Lee la documentación completa de Soporte de IA Visual →
Personalización de Diseño
Potato 2.1 añade soporte para diseños visuales personalizados sofisticados. Potato genera un archivo editable layouts/task_layout.html por defecto, y puedes proporcionar una plantilla HTML totalmente personalizada con diseños de cuadrícula CSS, opciones codificadas por color y estilización de secciones.
task_layout: layouts/custom_task_layout.htmlSe incluyen tres diseños de ejemplo en project-hub/layout-examples/:
- Moderación de contenido -- Banner de advertencia, cuadrícula de 2 columnas, severidad codificada por color
- QA de diálogo -- Metadatos del caso, calificaciones Likert circulares, evaluaciones agrupadas
- Revisión médica -- Estilización médica profesional, informes estructurados
Los diseños personalizados funcionan junto al nuevo sistema instance_display -- el contenido de visualización se renderiza sobre tus formularios de anotación personalizados.
Lee la documentación completa de Personalización de Diseño →
Otras Mejoras
Justificaciones de Etiquetas
Una cuarta capacidad de IA se une a las pistas, el resaltado de palabras clave y las sugerencias de etiquetas. Las justificaciones generan explicaciones equilibradas de por qué cada etiqueta podría aplicarse, ayudando a los anotadores a comprender el razonamiento detrás de diferentes clasificaciones.
ai_support:
features:
rationales:
enabled: trueCorrecciones de Errores y Pruebas
- 50+ nuevas pruebas para mayor confiabilidad
- Mejoras de diseño responsivo en todos los tipos de anotación
- Organización mejorada del project-hub con ejemplos de diseño
Actualización a v2.1
pip install --upgrade potato-annotationLas configuraciones existentes de v2.0 funcionan sin cambios -- todas las nuevas funciones son opcionales a través de bloques de configuración adicionales como instance_display, esquemas span_link y endpoints de IA visual.
Para Comenzar
- Novedades -- Visión general completa de funciones de v2.1
- Visualización de Instancias -- Visualización de contenido multimodal
- Soporte de IA Visual -- IA para anotación de imágenes y video
- Vinculación de Spans -- Anotación de relaciones entre entidades
- Personalización de Diseño -- Plantillas HTML personalizadas
¿Tienes preguntas o comentarios? Únete a nuestro Discord o abre un issue en GitHub.