Evaluación humana de texto generado

Cómo realizar una evaluación humana defendible de la salida de LLM y NLG: definir los criterios con precisión, elegir entre valoraciones absolutas o por pares, dotar de potencia al estudio e informar lo suficiente para reproducirlo.

Las métricas automáticas como BLEU y ROUGE se correlacionan débilmente con lo buena que es en realidad el texto generado, así que la evaluación humana sigue siendo el estándar, y se hace mal más veces de las que se hace bien. Las tres cosas que separan una evaluación humana fiable de una decorativa: define cada criterio con precisión, prefiere los juicios relativos a las puntuaciones absolutas e informa con suficiente detalle para que otra persona pueda repetirla. Esta guía es el protocolo, no la redacción de la rúbrica.

Por qué la evaluación humana y por qué cuesta confiar en ella

Para la generación abierta, los resúmenes, el diálogo, las traducciones y las respuestas de LLM, las métricas automáticas comparan con textos de referencia y pasan por alto la mayor parte de lo que importa: una respuesta fluida y fiel formulada de manera distinta a la referencia obtiene mala puntuación, y una mentira fluida obtiene buena puntuación. Por eso el juicio humano sigue siendo la verdad de referencia. El problema es que la propia evaluación humana es un instrumento de medición, y uno mal diseñado produce números tan ruidosos como las métricas que sustituye.

La magnitud del problema está documentada. Howcroft et al. (2020) revisaron veinte años de evaluaciones de NLG y descubrieron que el campo ni siquiera lograba ponerse de acuerdo sobre lo que significaban sus propios criterios: términos como «fluidez», «adecuación» y «naturalidad» se definían de forma distinta (o no se definían en absoluto) según el artículo, lo que hacía imposible comparar los resultados. Su solución es el punto de partida de cualquier evaluación seria: precisa exactamente qué significa cada criterio antes de recoger un solo juicio.

Define los criterios con precisión

Los criterios vagos son donde fallan la mayoría de las evaluaciones humanas. «Valora la calidad del 1 al 5» invita a cada anotador a inventar su propia definición de calidad. Divídela en dimensiones nombradas y definidas por separado, y escribe una definición operativa de una frase para cada una:

Fluidez: ¿el texto es gramatical y está bien formado, sin tener en cuenta si es correcto?
Coherencia: ¿las oraciones se encadenan de forma sensata en conjunto?
Fidelidad / exactitud factual: ¿cada afirmación está respaldada por la fuente (para resumen/RAG) o es cierta (para generación abierta)? Aquí es donde se detectan las alucinaciones.
Relevancia: ¿aborda realmente la indicación?
Utilidad: en tareas de tipo asistente, ¿logra lo que el usuario quería?

Medir estas dimensiones por separado te dice por qué un sistema supera a otro, no solo que lo hizo.

Puntuaciones absolutas o comparaciones relativas

La mayor decisión de diseño es si los anotadores valoran una salida a la vez o comparan varias.

Las valoraciones absolutas (Likert) son sencillas pero sufren sesgo de escala: los anotadores anclan de forma distinta, evitan los extremos y se desvían a lo largo de una sesión, así que un «4» de un evaluador no es un «4» de otro.
La preferencia por pares (¿es mejor A o B?) elude por completo el sesgo de escala y suele ser más fiable, razón por la que sustenta los datos de preferencia para RLHF y la comparación de modelos. El coste es que obtienes una clasificación, no un nivel absoluto.
El escalado best-worst muestra un pequeño conjunto y solo pide el mejor y el peor, una forma barata de obtener clasificaciones fiables a partir de pocos juicios.

van der Lee et al. (2021) exponen pautas de buenas prácticas que cubren exactamente estas decisiones: cuántos elementos y evaluadores, qué escala, qué análisis estadístico, y vale la pena leerlas antes de comprometerte con un diseño.

Dótala de potencia e infórmala

Quedan dos modos de fallo incluso después de acertar con el diseño.

Primero, las comparaciones con potencia insuficiente. Detectar una pequeña diferencia de calidad entre dos buenos sistemas requiere más elementos de los que la gente espera; realiza primero el análisis de potencia, usa una prueba de significación adecuada e informa los tamaños del efecto, no solo qué media fue más alta.

Segundo, el detalle no informado. Belz et al. (2021) revisaron la reproducibilidad en NLP y encontraron que las evaluaciones humanas eran especialmente difíciles de reproducir, normalmente porque el artículo omite los criterios exactos, las instrucciones, el conjunto de anotadores y el análisis. Regístralo todo como parte del estudio, no como una ocurrencia tardía.

Algunos mecanismos que evitan sesgos prescindibles: aleatoriza el orden de las salidas para que la posición no se filtre (la gente favorece la primera opción), oculta la identidad del sistema para que los anotadores no puedan saber qué modelo produjo qué, y haz un piloto con un lote pequeño para medir la concordancia y corregir criterios confusos antes de escalar.

Cómo hacerlo en Potato

Potato tiene un esquema para cada estilo de evaluación, así que la decisión de diseño anterior se traduce directamente en configuración. Para valoraciones absolutas por criterio:

yaml

annotation_schemes:
  - name: faithfulness
    annotation_type: likert
    description: "Is every claim in the response supported by the source? 1 = many unsupported, 5 = fully supported."
    size: 5
  - name: fluency
    annotation_type: likert
    description: "Is the response grammatical and well-formed?"
    size: 5

Para una comparación A/B a ciegas, usa un esquema pairwise y aleatoriza qué sistema se muestra como A:

yaml

annotation_schemes:
  - name: preference
    annotation_type: pairwise
    description: "Which response is more helpful overall?"
    labels: ["A is better", "Tie", "B is better"]

Para una puntuación estructurada y multicriterio en una sola pasada, el esquema rubric_eval recoge una puntuación por dimensión de la rúbrica. Elijas el que elijas, mantén solapamiento en un subconjunto compartido para poder informar la concordancia, y conserva las etiquetas por anotador en la exportación para que la prueba de significación tenga la varianza que necesita.

Lecturas adicionales

Evaluación de LLM basada en rúbricas, para convertir la calidad difusa en dimensiones puntuadas.
Comparación de modelos por pares, para evaluación A/B a escala.
Potencia estadística y tamaño de muestra, para que la comparación pueda de verdad respaldar su afirmación.
Evaluación de RAG con anotación humana, específicamente para el caso de fidelidad/relevancia.