Di quanti annotatori hai davvero bisogno?
Decidere il numero di annotatori e la sovrapposizione per un progetto di annotazione: regole pratiche per task oggettivi e soggettivi, il compromesso tra copertura e sovrapposizione, e come impostarlo in Potato.
"Di quanti annotatori ho bisogno?" è una delle prime domande in qualsiasi progetto, e la risposta onesta è che dipende da tre cose: quanto è chiaro il task, quanto puoi spendere e cosa intendi fare con i disaccordi. Non esiste un numero magico, ma esistono buoni valori predefiniti.
Copertura contro sovrapposizione
Ogni budget di annotazione si divide tra due obiettivi in concorrenza. La copertura significa etichettare più elementi distinti, ciascuno una volta. La sovrapposizione significa etichettare gli stessi elementi più volte, così da poter misurare l'accordo e aggregare. Non puoi massimizzare entrambi contemporaneamente.
Un approccio che funziona bene: sovrapporre completamente un piccolo sottoinsieme per misurare l'accordo e confermare che il task è ben definito, poi annotare il resto con un solo annotatore una volta che ti fidi. Ottieni un segnale di qualità senza pagare per etichettare tutto tre volte.
Regole pratiche
Per i task con categorie chiare e accordo elevato, un solo annotatore gestisce la maggior parte degli elementi, con due o tre annotatori sovrapposti su un campione del 5-10 percento per monitorare la qualità.
Per i task moderatamente soggettivi, usa tre annotatori per elemento e risolvi con voto a maggioranza o con un modello pesato sulla competenza.
Per il lavoro genuinamente soggettivo, come giudicare l'offensività, l'emozione o la preferenza, usa cinque o più annotatori per elemento, e considera di mantenere l'intera distribuzione delle etichette invece di ridurla a un'unica risposta. Il disaccordo è spesso un segnale reale, non rumore.
Più annotatori riducono la varianza dell'etichetta aggregata di un elemento, ma con rendimenti decrescenti. Passare da uno a tre annotatori aiuta molto di più che passare da sette a nove.
Impostare la sovrapposizione in Potato
L'assegnazione automatica di Potato controlla quanti annotatori vedono ogni elemento e come gli elementi vengono distribuiti tra le persone.
automatic_assignment:
on: true
instance_per_annotator: 50 # items each person labels
labels_per_instance: 3 # annotators per item (overlap)Il numero di persone non sostituisce il controllo qualità
Aggiungere annotatori non serve se alcuni di loro sono inaffidabili. Abbina la sovrapposizione a elementi gold-standard e a controlli di attenzione, così da poter pesare o scartare il lavoro di bassa qualità prima di aggregare. Per il ragionamento completo, vedi la guida Di quanti annotatori hai bisogno? e Accordo tra annotatori. Per i dettagli di implementazione, vedi la documentazione sorgente e la documentazione sul controllo qualità.