Question 1

¿Qué es la anotación de datos?

Accepted Answer

La anotación de datos es el proceso de añadir etiquetas a datos sin procesar, como texto, imágenes, audio, vídeo o salidas de modelos, para que esos datos puedan usarse para entrenar o evaluar modelos de aprendizaje automático. Una etiqueta puede ser una categoría, un fragmento resaltado, una puntuación o una comparación. Potato te permite configurar cualquiera de estos tipos de tarea con un breve archivo de configuración YAML.

Question 2

¿Qué es la concordancia entre anotadores?

Accepted Answer

La concordancia entre anotadores mide con qué frecuencia anotadores independientes asignan la misma etiqueta al mismo elemento. Es la evidencia estándar de que una tarea está bien definida y de que las etiquetas son fiables. Las medidas más habituales son la kappa de Cohen, la kappa de Fleiss y el alfa de Krippendorff, que corrigen la concordancia que ocurriría por azar. Potato muestra el alfa de Krippendorff en su panel de administración.

Question 3

¿Cuál es la mejor herramienta de anotación gratuita?

Accepted Answer

Depende de tus datos y de tus objetivos, así que no hay una única respuesta. Para trabajos que abarcan texto, imágenes, audio y evaluación de agentes de IA, Potato es una opción gratuita y de código abierto muy sólida, con más de 50 tipos de tarea y una configuración en YAML sin necesidad de programar. Label Studio, Doccano, brat y Argilla son otras opciones de código abierto con fortalezas distintas.

Question 4

¿Cómo etiqueto datos para aprendizaje automático?

Accepted Answer

Empieza por definir la tarea y el conjunto de etiquetas, luego redacta directrices claras y haz que varios anotadores etiqueten elementos solapados. Mide la concordancia, resuelve los desacuerdos y exporta el resultado en un formato que tu canal de entrenamiento pueda leer. Potato cubre todo este flujo de trabajo y exporta a JSON, CoNLL, Hugging Face, spaCy y COCO/YOLO.

Question 5

¿Cuántos anotadores necesito por elemento?

Accepted Answer

Las tareas claras y objetivas suelen poder usar un solo anotador, con una pequeña muestra solapada para los controles de calidad. Las tareas moderadamente subjetivas suelen usar tres anotadores, resueltos por voto mayoritario. Las tareas muy subjetivas usan cinco o más, y a veces conservan toda la diversidad de opiniones en lugar de reducirla a una sola respuesta. El beneficio disminuye con rapidez a partir de tres.

Question 6

¿Qué es el aprendizaje activo en la anotación de datos?

Accepted Answer

El aprendizaje activo elige qué elementos anotar a continuación para que un modelo alcance una precisión objetivo con menos etiquetas de las que necesitaría un muestreo aleatorio. El modelo señala los elementos que considera más informativos, a menudo aquellos sobre los que tiene menos certeza, y una persona los etiqueta. Potato admite estrategias de incertidumbre, diversidad, BADGE y BALD.

Question 7

¿Cuál es la diferencia entre clasificación y anotación de fragmentos?

Accepted Answer

La clasificación asigna una o varias etiquetas a un elemento completo, como marcar una reseña como positiva o negativa. La anotación de fragmentos marca una región dentro de un elemento, como resaltar un nombre en una frase o un evento en una forma de onda de audio. El reconocimiento de entidades nombradas y el marcado de errores son tareas de fragmentos. Potato admite ambos enfoques, y puedes combinarlos en una misma pantalla.

Question 8

¿Cómo evalúo las salidas de un LLM o de un agente de IA?

Accepted Answer

Haz que las personas juzguen las salidas: que las puntúen en una escala, que comparen dos en paralelo, que las evalúen con una rúbrica o que marquen errores concretos con fragmentos. En el caso de agentes que dan varios pasos, también puedes juzgar cada paso de la trayectoria. Potato ofrece todas estas opciones y puede leer trazas de agentes en formatos como OpenAI, Anthropic y ReAct.

Conceptos de anotación de datos

Conceptos de anotación de datos

¿Aún tiene preguntas?