Skip to content
Guides3 min read

¿Cuántos anotadores necesitas realmente?

Cómo decidir el número de anotadores y el solapamiento de un proyecto de anotación: reglas generales para tareas objetivas y subjetivas, el equilibrio entre cobertura y solapamiento, y cómo configurarlo en Potato.

Potato Team

"¿Cuántos anotadores necesito?" es una de las primeras preguntas de cualquier proyecto, y la respuesta honesta es que depende de tres cosas: lo clara que sea la tarea, cuánto puedas gastar y qué piensas hacer con los desacuerdos. No hay un número mágico, pero sí buenos valores por defecto.

Cobertura frente a solapamiento

Todo presupuesto de anotación se reparte entre dos objetivos que compiten entre sí. La cobertura consiste en etiquetar más elementos distintos, cada uno una sola vez. El solapamiento consiste en etiquetar los mismos elementos varias veces para poder medir la concordancia y agregar. No puedes maximizar ambos a la vez.

Un patrón que funciona bien: solapar por completo un pequeño subconjunto para medir la concordancia y confirmar que la tarea está bien definida, y luego anotar el resto una sola vez una vez que confíes en ella. Obtienes una señal de calidad sin pagar por etiquetar todo tres veces.

Reglas generales

Para tareas con categorías claras y alta concordancia, un solo anotador se encarga de la mayoría de los elementos, con dos o tres anotadores solapándose en una muestra del 5 al 10 por ciento para vigilar la calidad.

Para tareas moderadamente subjetivas, usa tres anotadores por elemento y resuelve con voto mayoritario o con un modelo ponderado por competencia.

Para trabajos genuinamente subjetivos, como juzgar lo ofensivo, la emoción o la preferencia, usa cinco o más anotadores por elemento, y plantéate conservar toda la distribución de etiquetas en lugar de reducirla a una sola respuesta. El desacuerdo suele ser señal real, no ruido.

Más anotadores reducen la varianza de la etiqueta agregada de un elemento, pero con rendimientos decrecientes. Pasar de uno a tres anotadores ayuda mucho más que pasar de siete a nueve.

Cómo configurar el solapamiento en Potato

La asignación automática de Potato controla cuántos anotadores ven cada elemento y cómo se distribuyen los elementos entre las personas.

yaml
automatic_assignment:
  on: true
  instance_per_annotator: 50     # items each person labels
  labels_per_instance: 3         # annotators per item (overlap)

El número de personas no sustituye al control de calidad

Añadir anotadores no ayuda si algunos de ellos no son fiables. Combina el solapamiento con elementos de referencia (gold standard) y comprobaciones de atención para poder ponderar o descartar el trabajo de baja calidad antes de agregar. Para el razonamiento completo, consulta la guía ¿Cuántos anotadores necesitas? y Concordancia entre anotadores. Para detalles de implementación, consulta la documentación de origen y los documentos de control de calidad.