Controllo della Qualità
Verifiche di attenzione, standard gold e metriche di accordo inter-annotatore.
Controllo della Qualità
Potato fornisce funzionalità complete di controllo della qualità per garantire annotazioni di alta qualità. Questo include verifiche di attenzione, standard gold, supporto alla pre-annotazione e metriche di accordo in tempo reale.
Panoramica
Il controllo della qualità in Potato consiste in quattro funzionalità chiave:
- Verifiche di Attenzione - Verifica il coinvolgimento degli annotatori con elementi a risposta nota
- Standard Gold - Tiene traccia dell'accuratezza rispetto agli elementi etichettati da esperti
- Supporto alla Pre-Annotazione - Pre-compila i moduli con previsioni del modello
- Metriche di Accordo - Calcola l'accordo inter-annotatore in tempo reale
Verifiche di Attenzione
Le verifiche di attenzione sono elementi con risposte corrette note che verificano che gli annotatori stiano prestando attenzione e non stiano cliccando casualmente.
Configurazione
attention_checks:
enabled: true
items_file: "attention_checks.json"
# Con quale frequenza inserire le verifiche di attenzione
frequency: 10 # Inserisci una ogni 10 elementi
# OPPURE
probability: 0.1 # Probabilità del 10% per elemento
# Opzionale: segnala le risposte sospettosamente veloci
min_response_time: 3.0 # Segnala se risposto in < 3 secondi
# Gestione dei fallimenti
failure_handling:
warn_threshold: 2 # Mostra un avviso dopo 2 fallimenti
warn_message: "Please read items carefully before answering."
block_threshold: 5 # Blocca l'utente dopo 5 fallimenti
block_message: "You have been blocked due to too many incorrect responses."File degli Elementi di Verifica dell'Attenzione
[
{
"id": "attn_001",
"text": "Please select 'Positive' for this item to verify you are reading carefully.",
"expected_answer": {
"sentiment": "positive"
}
}
]Standard Gold
Gli standard gold sono elementi etichettati da esperti usati per misurare l'accuratezza degli annotatori. Per impostazione predefinita, gli standard gold sono silenziosi - i risultati vengono registrati per la revisione dell'amministratore, ma gli annotatori non vedono il feedback.
Configurazione
gold_standards:
enabled: true
items_file: "gold_standards.json"
# Come usare gli standard gold
mode: "mixed" # Opzioni: training, mixed, separate
frequency: 20 # Inserisci uno ogni 20 elementi
# Requisiti di accuratezza
accuracy:
min_threshold: 0.7 # Accuratezza minima richiesta (70%)
evaluation_count: 10 # Valuta dopo questo numero di elementi gold
# Impostazioni del feedback (disabilitato per impostazione predefinita)
feedback:
show_correct_answer: false
show_explanation: false
# Promozione automatica da elementi ad alto accordo
auto_promote:
enabled: true
min_annotators: 3
agreement_threshold: 1.0 # 1.0 = unanimeFile degli Elementi Standard Gold
[
{
"id": "gold_001",
"text": "The service was absolutely terrible and I will never return.",
"gold_label": {
"sentiment": "negative"
},
"explanation": "Strong negative language clearly indicates negative sentiment.",
"difficulty": "easy"
}
]Promozione Automatica
Gli elementi possono diventare automaticamente standard gold quando più annotatori concordano:
gold_standards:
auto_promote:
enabled: true
min_annotators: 3 # Attendi almeno 3 annotatori
agreement_threshold: 1.0 # Il 100% deve concordare (unanime)Supporto alla Pre-Annotazione
La pre-annotazione consente di pre-compilare i moduli di annotazione con previsioni del modello, utile per i flussi di lavoro di apprendimento attivo e correzione.
Configurazione
pre_annotation:
enabled: true
field: "predictions" # Campo nei dati contenente le previsioni
allow_modification: true # Gli annotatori possono modificare i valori pre-compilati?
show_confidence: true
highlight_low_confidence: 0.7Formato dei Dati
Includi le previsioni nei tuoi elementi dati:
{
"id": "item_001",
"text": "I love this product!",
"predictions": {
"sentiment": "positive",
"confidence": 0.92
}
}Metriche di Accordo
Le metriche di accordo inter-annotatore in tempo reale usando l'alpha di Krippendorff sono disponibili nella dashboard di amministrazione.
Configurazione
agreement_metrics:
enabled: true
min_overlap: 2 # Annotatori minimi per elemento
auto_refresh: true
refresh_interval: 60 # Secondi tra gli aggiornamentiInterpretazione dell'Alpha di Krippendorff
| Valore Alpha | Interpretazione |
|---|---|
| α ≥ 0.8 | Buon accordo - affidabile per la maggior parte degli scopi |
| 0.67 ≤ α ≤ 0.8 | Accordo tentativo - trai conclusioni provvisorie |
| 0.33 ≤ α ≤ 0.67 | Basso accordo - rivedi le linee guida |
| α ≤ 0.33 | Scarso accordo - problemi significativi |
Integrazione con la Dashboard di Amministrazione
Visualizza le metriche di controllo della qualità nella dashboard di amministrazione su /admin:
- Verifiche di Attenzione: Tassi di passaggio/fallimento complessivi, statistiche per annotatore
- Standard Gold: Accuratezza per annotatore, analisi della difficoltà per elemento
- Accordo: Alpha di Krippendorff per schema con interpretazione
- Elementi Promossi Automaticamente: Lista degli elementi promossi per alto accordo
Endpoint API
Metriche di Controllo della Qualità
GET /admin/api/quality_controlRestituisce le statistiche delle verifiche di attenzione e degli standard gold.
Metriche di Accordo
GET /admin/api/agreementRestituisce l'alpha di Krippendorff per schema con interpretazione.
Esempio Completo
annotation_task_name: "Sentiment Analysis with Quality Control"
annotation_schemes:
- name: sentiment
annotation_type: radio
labels: [positive, negative, neutral]
description: "Select the sentiment of the text"
attention_checks:
enabled: true
items_file: "data/attention_checks.json"
frequency: 15
failure_handling:
warn_threshold: 2
block_threshold: 5
gold_standards:
enabled: true
items_file: "data/gold_standards.json"
mode: mixed
frequency: 25
accuracy:
min_threshold: 0.7
evaluation_count: 5
agreement_metrics:
enabled: true
min_overlap: 2
refresh_interval: 60Risoluzione dei Problemi
Verifiche di Attenzione Non Appaiono
- Verifica che il percorso
items_filesia corretto (relativo alla directory del compito) - Controlla che gli elementi abbiano i campi richiesti (
id,expected_answer) - Assicurati che
frequencyoprobabilitysia impostato
Metriche di Accordo che Mostrano "No items with N+ annotators"
- Assicurati che gli elementi siano stati annotati da più utenti
- Riduci
min_overlapse necessario - Controlla che le annotazioni vengano salvate correttamente
Ulteriori Letture
- Fase di Addestramento - Qualificazione degli annotatori
- Dashboard di Amministrazione - Monitoraggio delle metriche
- Assegnazione Compiti - Controlla la distribuzione delle annotazioni
Per i dettagli di implementazione, consulta la documentazione sorgente.