Échelles de notation

Comment concevoir des échelles de notation pour l'annotation : Likert ou curseurs, combien de points utiliser, éviter le biais d'acquiescement et créer des tâches de notation dans Potato.

Une échelle de notation capte le degré — à quel point c'est positif, fluide, utile — plutôt qu'une catégorie. Les deux formes courantes sont l'échelle de Likert discrète (par exemple 1–5) et le curseur continu. De petits choix de conception dans une échelle modifient vos données plus qu'on ne le croit.

Likert : des points discrets

Utilisez une échelle de Likert quand vous voulez des notes comparables et faciles à agréger :

yaml

annotation_schemes:
  - annotation_type: likert
    name: fluency
    description: "How fluent is this translation?"
    size: 5
    min_label: "Not fluent at all"
    max_label: "Perfectly fluent"

Des décisions de conception qui comptent :

Combien de points ? Cinq est une valeur par défaut sûre. Sept offre plus de résolution si les annotateurs savent s'en servir. Un nombre pair supprime le point médian neutre et force une prise de position, utile quand « neutre » est une échappatoire, risqué quand la neutralité est réelle.
Étiquetez les extrémités, et idéalement chaque point. Les points étiquetés sont interprétés plus uniformément que de simples nombres.
Gardez une direction constante sur toutes vos échelles pour que les annotateurs ne les inversent pas par habitude.

Curseurs : des valeurs continues

Utilisez un slider quand la grandeur sous-jacente est vraiment continue, comme un pourcentage de confiance ou une intensité émotionnelle :

yaml

annotation_schemes:
  - annotation_type: slider
    name: confidence
    description: "How confident are you in your label?"
    min: 0
    max: 100
    step: 1
    min_label: "Guessing"
    max_label: "Certain"

Les échelles continues donnent de la résolution mais un accord plus faible, car les gens ne partagent pas une perception fine du « 67 contre 72 ». Regroupez la sortie en classes si vous avez besoin d'accord.

Des biais à anticiper dans la conception

Biais d'acquiescement : une tendance à être d'accord. Glissez des items à formulation inversée pour que l'accord ne soit pas l'option par défaut. Voir le biais d'acquiescement.
Tendance centrale : un regroupement autour du milieu. Des étiquettes claires aux extrémités et, le cas échéant, un nombre pair de points la contrebalancent.
Ancrage : les premiers items fixent une référence. Un court jeu de calibrage en début de tâche aide.

Au-delà d'une seule échelle

Notez plusieurs items sur la même échelle d'un coup avec multirate (par exemple chaque document récupéré). Voir Évaluation de RAG.
Notez plusieurs critères pondérés avec rubric_eval. Voir Évaluation de LLM par grille.
Les évaluations de qualité audio comme le MOS reposent sur le même mécanisme Likert, voir Annotation audio.

Pour aller plus loin

Choisir un schéma d'annotation
Comparaison par paires et scaling best–worst, quand les comparaisons valent mieux que les notes
L'accord inter-annotateurs expliqué