Comparación por pares y escala mejor–peor

Cuándo usar juicios comparativos en lugar de valoraciones, la comparación por pares y la escala mejor–peor (MaxDiff), y cómo configurarlas en Potato.

Las personas dan mal puntuaciones absolutas estables, pero comparan bien. La anotación comparativa aprovecha esto: en lugar de "puntúa esto del 1 al 5", preguntas "¿cuál es mejor, A o B?". Las dos formas principales son la comparación por pares y la escala mejor–peor. Son la columna vertebral de los datos de preferencias de la IA moderna.

Consulta Pairwise comparison y MaxDiff para más contexto.

Comparación por pares

Muestra dos elementos y pregunta cuál gana. Es sencilla, de alta concordancia, y es el formato que se usa para recopilar datos de preferencias humanas para el aprendizaje por refuerzo a partir de retroalimentación humana.

yaml

annotation_schemes:
  - annotation_type: pairwise
    name: preference
    description: "Which response better answers the question?"
    mode: binary
    allow_tie: true
    sequential_key_binding: true

Permitir empates evita que los anotadores inventen una diferencia donde no la hay. Para captar cuánto mejor es, cambia mode a una escala (por ejemplo, "A mucho mejor … B mucho mejor"). El escaparate de preferencias por pares es un ejemplo en funcionamiento.

Muchos juicios por pares pueden convertirse en una única clasificación con un modelo como el sistema de puntuación Elo o el modelo de Bradley–Terry.

Escala mejor–peor (MaxDiff)

Muestra un conjunto pequeño (a menudo cuatro elementos) y pide el mejor y el peor. Cada juicio es más informativo que un solo voto por pares, porque fija ambos extremos del conjunto a la vez.

yaml

annotation_schemes:
  - annotation_type: best_worst_scaling
    name: fluency
    description: "Pick the most and least fluent translation."
    tuple_size: 4
    best_label: "Most fluent"
    worst_label: "Least fluent"

La escala mejor–peor produce puntuaciones fiables y casi de intervalo a partir de elecciones simples, y se usa mucho para construir clasificaciones calibradas a partir de muchos anotadores.

Cuándo preferir comparaciones a valoraciones

Tu constructo es difícil de anclar de forma absoluta (humor, utilidad, calidad estética).
Necesitas alta concordancia y tu escala Likert es ruidosa.
Estás construyendo datos de preferencias para entrenar o alinear un modelo.

El coste es que obtienes información relativa; quizá necesites un modelo (Elo, Bradley–Terry) para recuperar puntuaciones absolutas.

Lecturas adicionales

Escalas de valoración, la alternativa de puntuación absoluta
Comparación de modelos por pares, comparar salidas de IA
Datos de preferencias para RLHF