L'accord inter-annotateurs expliqué

Un guide pratique de l'accord inter-annotateurs : accord en pourcentage, kappa de Cohen et de Fleiss, alpha de Krippendorff, quand utiliser chaque mesure et comment Potato les rapporte.

L'accord inter-annotateurs (IAA) mesure la fréquence à laquelle des annotateurs indépendants attribuent la même étiquette. C'est la preuve standard qu'une tâche d'annotation est bien définie et que les étiquettes obtenues sont fiables. Un accord faible signifie généralement que les consignes manquent de clarté, et non que les annotateurs sont négligents.

Le sujet général est la fidélité inter-juges. Potato calcule l'accord en direct dans le tableau de bord d'administration, voir Contrôle qualité.

Pourquoi l'accord brut en pourcentage ne suffit pas

La mesure la plus simple est l'accord en pourcentage : la proportion d'éléments que les annotateurs ont étiquetés de façon identique. Le problème, c'est qu'une partie de l'accord se produit par hasard. Si deux annotateurs choisissent tous deux « positif » 90 % du temps, ils seront d'accord la plupart du temps, même en étiquetant au hasard. Les mesures corrigées du hasard règlent ce problème.

Un coefficient corrigé du hasard a la forme suivante :

text

        P_observed − P_expected
  κ =  ─────────────────────────
            1 − P_expected

où P_observed est l'accord réel et P_expected l'accord attendu par hasard. Une valeur de 1 correspond à un accord parfait ; 0 au niveau du hasard.

Les trois que vous utiliserez vraiment

Kappa de Cohen : deux annotateurs, étiquettes catégorielles. Le choix classique pour une paire.
Kappa de Fleiss : plus de deux annotateurs, étiquettes catégorielles, lorsque des éléments différents peuvent être jugés par des évaluateurs différents.
Alpha de Krippendorff : l'option la plus générale. Elle fonctionne avec n'importe quel nombre d'annotateurs, gère les données manquantes et prend en charge les données nominales, ordinales, d'intervalle et de rapport. C'est ce que Potato rapporte par défaut.

Utilisez le kappa pour les paires catégorielles simples ; tournez-vous vers l'alpha de Krippendorff lorsque vous avez de nombreux annotateurs, un chevauchement incomplet, ou des étiquettes ordonnées/continues (où « se tromper d'un cran » devrait compter moins que « se tromper de quatre crans »).

Interpréter le chiffre

Il n'existe pas de seuil universel, mais un repère approximatif courant pour l'alpha/kappa est le suivant :

≥ 0,80 : suffisant pour s'y fier.
0,67–0,80 : utilisable pour des conclusions provisoires ; examinez les désaccords.
< 0,67 : revoyez les consignes avant de faire confiance aux étiquettes.

Traitez ces valeurs comme une incitation à investiguer, et non comme une barrière de réussite/échec. Regardez toujours quels éléments et quelles étiquettes sont à l'origine du désaccord.

La mesurer dans Potato

Faites en sorte que les annotateurs se chevauchent sur un sous-ensemble partagé, puis activez le rapport d'accord :

yaml

agreement_metrics:
  enabled: true
  # Krippendorff's alpha is reported in the admin dashboard.

Pour les tâches de segments (span) et structurées, mesurez l'accord au niveau qui vous intéresse (correspondance exacte du segment ou chevauchement), car les mesures au niveau du document masquent les désaccords sur les limites.

Quand l'accord est faible

Lisez les éléments en désaccord : la consigne est-elle ambiguë ou l'élément est-il réellement difficile ?
Resserrez les définitions et ajoutez les cas difficiles comme exemples. Voir Rédiger des consignes d'annotation.
Refaites un test pilote. Si l'accord reste faible sur des tâches véritablement subjectives, envisagez de consigner le désaccord lui-même plutôt que d'imposer une réponse unique.