Potencia estadística y tamaño de muestra en estudios de anotación

Cuántos elementos necesitas para que un resultado signifique algo, por qué esa es una pregunta distinta de cuántos anotadores por elemento, y cómo evitar estudios de anotación y evaluación con poca potencia y conclusiones exageradas.

"¿Cuántos anotadores?" y "¿cuántos elementos?" son dos preguntas distintas que se confunden constantemente. El solapamiento entre anotadores controla lo fiable que es la etiqueta de cada elemento; el número de elementos controla si una diferencia que observas es real o ruido. Un estudio puede tener cinco anotadores por elemento y aun así ser demasiado pequeño para sostener su conclusión. Esta guía trata del segundo eje, la potencia estadística, y de cómo evitar que un estudio de anotación o evaluación afirme más de lo que sus datos permiten.

Dos presupuestos, no uno

Todo proyecto de anotación invierte esfuerzo a lo largo de dos ejes independientes, y conviene nombrarlos por separado:

Solapamiento (anotadores por elemento): compra fiabilidad de la etiqueta, la confianza en que la etiqueta de un elemento concreto es correcta. Este es el tema de ¿Cuántos anotadores necesitas?.
Tamaño de muestra (número de elementos): compra potencia estadística, la capacidad de detectar una diferencia real entre condiciones, modelos o grupos.

Ambos compiten por un presupuesto fijo, pero resuelven problemas distintos. Diez anotadores etiquetando 50 elementos te dan etiquetas muy fiables para una muestra demasiado pequeña para comparar nada. Un anotador etiquetando 5000 elementos te da etiquetas ruidosas pero suficientes para detectar un efecto real. Cuál de los dos errores estás a punto de cometer depende de qué pregunta te estás haciendo en realidad.

Qué es la potencia estadística

La potencia estadística es la probabilidad de que tu estudio detecte un efecto que realmente existe. Una potencia baja significa que, incluso cuando el modelo A es de verdad mejor que el modelo B, tu experimento a menudo no logra demostrarlo y, de forma menos evidente, que los resultados "significativos" que sí obtienes tienen más probabilidad de ser casualidades con tamaños de efecto inflados. La convención es aspirar a una potencia del 80 %, lo que exige decidir de antemano la menor diferencia que vale la pena detectar y dimensionar el estudio para captarla.

El hallazgo incómodo es con qué frecuencia se omite este paso. Card et al. (2020) realizaron análisis de potencia sobre configuraciones habituales de PLN y encontraron que muchas comparaciones publicadas tienen muy poca potencia: para detectar de forma fiable las pequeñas diferencias que suelen afirmar los artículos, sobre todo en evaluación humana, a menudo se necesitan de cientos a miles de elementos, muchos más de los que los estudios usan realmente. Su conclusión práctica es ejecutar el cálculo de potencia antes de recopilar los datos, no reconstruir la significación después.

Hacer bien la prueba de significación

Tener suficientes elementos es necesario pero no basta; también hay que hacer la prueba correctamente. Dror et al. (2018) es la referencia estándar aquí, y su consejo es concreto:

Ajusta la prueba a los datos. Las métricas de PLN suelen no seguir una distribución normal, así que apóyate en opciones no paramétricas, pruebas de bootstrap y de permutación, en lugar de suponer que se aplica una prueba t.
Corrige por comparaciones múltiples. Probar muchos modelos, métricas o subgrupos infla los falsos positivos; ajusta (Bonferroni o, mejor, Benjamini-Hochberg) cuando ejecutes muchas pruebas.
Informa del tamaño del efecto y de un intervalo de confianza, no solo del valor p. Con suficientes elementos, una diferencia puede ser estadísticamente significativa y prácticamente irrelevante. El tamaño del efecto y el intervalo le indican al lector si debe importarle.

Una receta viable

Enuncia la menor diferencia que sería relevante (por ejemplo, una diferencia de 2 puntos en la tasa de victorias).
Ejecuta un análisis de potencia para ese efecto con una potencia del 80 % para obtener un número objetivo de elementos.
Decide el solapamiento por separado, según lo subjetivas que sean las etiquetas (consulta la guía sobre el número de anotadores).
Tras la recopilación, usa una prueba de bootstrap o de permutación, corrige por el número de comparaciones e informa de los tamaños de efecto con sus intervalos.

El orden importa: dimensionar el estudio después de ver los datos es como los resultados con poca potencia se disfrazan de hallazgos.

Hacerlo en Potato

La potencia es una decisión de diseño, no una clave de configuración, pero el trabajo de Potato es darte datos limpios sobre los que ejecutar el análisis. Fija el solapamiento para la fiabilidad y el número de instancias para el tamaño de muestra en la asignación de tareas:

yaml

automatic_assignment:
  on: true
  instance_per_annotator: 400    # sample size: items each annotator sees
  labels_per_instance: 3         # overlap: reliability per item

Los dos mandos son independientes a propósito. La exportación conserva la etiqueta individual de cada anotador con su ID y su marca de tiempo, que es lo que te permite hacer remuestreo bootstrap, por elemento y por anotador, cuando calculas la significación fuera de línea. Conservar las etiquetas por anotador en lugar de solo el agregado es lo que hace posible un análisis adecuado y consciente de la potencia; si colapsas demasiado pronto a una única etiqueta de referencia, pierdes la varianza que el bootstrap necesita.

Lecturas adicionales

¿Cuántos anotadores necesitas?, el lado de la fiabilidad del presupuesto.
El acuerdo entre anotadores explicado, para medir la fiabilidad una vez que tienes solapamiento.
Evaluación humana de texto generado, donde las comparaciones con poca potencia son especialmente comunes.
Exportar anotaciones para ML, para extraer las etiquetas por anotador y poder probarlas.