Skip to content

Conceptos de anotación de datos

Encuentre respuestas a preguntas comunes sobre Potato. ¿No encuentra lo que busca? Únase a nuestro Discord o consulte la documentación.

Conceptos de anotación de datos

La anotación de datos es el proceso de añadir etiquetas a datos sin procesar, como texto, imágenes, audio, vídeo o salidas de modelos, para que esos datos puedan usarse para entrenar o evaluar modelos de aprendizaje automático. Una etiqueta puede ser una categoría, un fragmento resaltado, una puntuación o una comparación. Potato te permite configurar cualquiera de estos tipos de tarea con un breve archivo de configuración YAML.

La concordancia entre anotadores mide con qué frecuencia anotadores independientes asignan la misma etiqueta al mismo elemento. Es la evidencia estándar de que una tarea está bien definida y de que las etiquetas son fiables. Las medidas más habituales son la kappa de Cohen, la kappa de Fleiss y el alfa de Krippendorff, que corrigen la concordancia que ocurriría por azar. Potato muestra el alfa de Krippendorff en su panel de administración.

Depende de tus datos y de tus objetivos, así que no hay una única respuesta. Para trabajos que abarcan texto, imágenes, audio y evaluación de agentes de IA, Potato es una opción gratuita y de código abierto muy sólida, con más de 30 tipos de tarea y una configuración en YAML sin necesidad de programar. Label Studio, Doccano, brat y Argilla son otras opciones de código abierto con fortalezas distintas.

Empieza por definir la tarea y el conjunto de etiquetas, luego redacta directrices claras y haz que varios anotadores etiqueten elementos solapados. Mide la concordancia, resuelve los desacuerdos y exporta el resultado en un formato que tu canal de entrenamiento pueda leer. Potato cubre todo este flujo de trabajo y exporta a JSON, CoNLL, Hugging Face, spaCy y COCO/YOLO.

Las tareas claras y objetivas suelen poder usar un solo anotador, con una pequeña muestra solapada para los controles de calidad. Las tareas moderadamente subjetivas suelen usar tres anotadores, resueltos por voto mayoritario. Las tareas muy subjetivas usan cinco o más, y a veces conservan toda la diversidad de opiniones en lugar de reducirla a una sola respuesta. El beneficio disminuye con rapidez a partir de tres.

El aprendizaje activo elige qué elementos anotar a continuación para que un modelo alcance una precisión objetivo con menos etiquetas de las que necesitaría un muestreo aleatorio. El modelo señala los elementos que considera más informativos, a menudo aquellos sobre los que tiene menos certeza, y una persona los etiqueta. Potato admite estrategias de incertidumbre, diversidad, BADGE y BALD.

La clasificación asigna una o varias etiquetas a un elemento completo, como marcar una reseña como positiva o negativa. La anotación de fragmentos marca una región dentro de un elemento, como resaltar un nombre en una frase o un evento en una forma de onda de audio. El reconocimiento de entidades nombradas y el marcado de errores son tareas de fragmentos. Potato admite ambos enfoques, y puedes combinarlos en una misma pantalla.

Haz que las personas juzguen las salidas: que las puntúen en una escala, que comparen dos en paralelo, que las evalúen con una rúbrica o que marquen errores concretos con fragmentos. En el caso de agentes que dan varios pasos, también puedes juzgar cada paso de la trayectoria. Potato ofrece todas estas opciones y puede leer trazas de agentes en formatos como OpenAI, Anthropic y ReAct.

¿Aún tiene preguntas?

Nuestra comunidad está aquí para ayudar. Únase a Discord para soporte en tiempo real o explore la documentación para guías detalladas.