Control de Calidad
Verificaciones de atención, estándares de oro y métricas de acuerdo entre anotadores.
Control de Calidad
Potato proporciona funciones integrales de control de calidad para garantizar anotaciones de alta calidad. Esto incluye verificaciones de atención, estándares de oro, soporte de pre-anotación y métricas de acuerdo en tiempo real.
Descripción General
El control de calidad en Potato consta de cuatro características principales:
- Verificaciones de Atención - Verifican el compromiso del anotador con elementos de respuesta conocida
- Estándares de Oro - Rastrean la precisión contra elementos etiquetados por expertos
- Soporte de Pre-anotación - Pre-llenan formularios con predicciones de modelos
- Métricas de Acuerdo - Calculan el acuerdo entre anotadores en tiempo real
Verificaciones de Atención
Las verificaciones de atención son elementos con respuestas correctas conocidas que verifican que los anotadores están prestando atención y no haciendo clic aleatoriamente.
Configuración
attention_checks:
enabled: true
items_file: "attention_checks.json"
# How often to inject attention checks
frequency: 10 # Insert one every 10 items
# OR
probability: 0.1 # 10% chance per item
# Optional: flag suspiciously fast responses
min_response_time: 3.0 # Flag if answered in < 3 seconds
# Failure handling
failure_handling:
warn_threshold: 2 # Show warning after 2 failures
warn_message: "Please read items carefully before answering."
block_threshold: 5 # Block user after 5 failures
block_message: "You have been blocked due to too many incorrect responses."Archivo de Elementos de Verificación de Atención
[
{
"id": "attn_001",
"text": "Please select 'Positive' for this item to verify you are reading carefully.",
"expected_answer": {
"sentiment": "positive"
}
}
]Estándares de Oro
Los estándares de oro son elementos etiquetados por expertos que se utilizan para medir la precisión del anotador. Por defecto, los estándares de oro son silenciosos - los resultados se registran para revisión del administrador, pero los anotadores no reciben retroalimentación.
Configuración
gold_standards:
enabled: true
items_file: "gold_standards.json"
# How to use gold standards
mode: "mixed" # Options: training, mixed, separate
frequency: 20 # Insert one every 20 items
# Accuracy requirements
accuracy:
min_threshold: 0.7 # Minimum required accuracy (70%)
evaluation_count: 10 # Evaluate after this many gold items
# Feedback settings (disabled by default)
feedback:
show_correct_answer: false
show_explanation: false
# Auto-promotion from high-agreement items
auto_promote:
enabled: true
min_annotators: 3
agreement_threshold: 1.0 # 1.0 = unanimousArchivo de Elementos de Estándares de Oro
[
{
"id": "gold_001",
"text": "The service was absolutely terrible and I will never return.",
"gold_label": {
"sentiment": "negative"
},
"explanation": "Strong negative language clearly indicates negative sentiment.",
"difficulty": "easy"
}
]Auto-Promoción
Los elementos pueden convertirse automáticamente en estándares de oro cuando múltiples anotadores están de acuerdo:
gold_standards:
auto_promote:
enabled: true
min_annotators: 3 # Wait for at least 3 annotators
agreement_threshold: 1.0 # 100% must agree (unanimous)Soporte de Pre-anotación
La pre-anotación permite pre-llenar formularios de anotación con predicciones de modelos, útil para flujos de trabajo de aprendizaje activo y corrección.
Configuración
pre_annotation:
enabled: true
field: "predictions" # Field in data containing predictions
allow_modification: true # Can annotators change pre-filled values?
show_confidence: true
highlight_low_confidence: 0.7Formato de Datos
Incluye predicciones en tus elementos de datos:
{
"id": "item_001",
"text": "I love this product!",
"predictions": {
"sentiment": "positive",
"confidence": 0.92
}
}Métricas de Acuerdo
Las métricas de acuerdo entre anotadores en tiempo real usando el alfa de Krippendorff están disponibles en el panel de administración.
Configuración
agreement_metrics:
enabled: true
min_overlap: 2 # Minimum annotators per item
auto_refresh: true
refresh_interval: 60 # Seconds between updatesInterpretación del Alfa de Krippendorff
| Valor Alfa | Interpretación |
|---|---|
| α >= 0.8 | Buen acuerdo - confiable para la mayoría de propósitos |
| 0.67 <= α <= 0.8 | Acuerdo tentativo - se pueden extraer conclusiones tentativas |
| 0.33 <= α <= 0.67 | Acuerdo bajo - revisar las directrices |
| α <= 0.33 | Acuerdo deficiente - problemas significativos |
Integración con el Panel de Administración
Visualiza las métricas de control de calidad en el panel de administración en /admin:
- Verificaciones de Atención: Tasas generales de aprobación/rechazo, estadísticas por anotador
- Estándares de Oro: Precisión por anotador, análisis de dificultad por elemento
- Acuerdo: Alfa de Krippendorff por esquema con interpretación
- Elementos Auto-Promovidos: Lista de elementos promovidos por alto acuerdo
Endpoints de la API
Métricas de Control de Calidad
GET /admin/api/quality_controlDevuelve estadísticas de verificaciones de atención y estándares de oro.
Métricas de Acuerdo
GET /admin/api/agreementDevuelve el alfa de Krippendorff por esquema con interpretación.
Ejemplo Completo
annotation_task_name: "Sentiment Analysis with Quality Control"
annotation_schemes:
- name: sentiment
annotation_type: radio
labels: [positive, negative, neutral]
description: "Select the sentiment of the text"
attention_checks:
enabled: true
items_file: "data/attention_checks.json"
frequency: 15
failure_handling:
warn_threshold: 2
block_threshold: 5
gold_standards:
enabled: true
items_file: "data/gold_standards.json"
mode: mixed
frequency: 25
accuracy:
min_threshold: 0.7
evaluation_count: 5
agreement_metrics:
enabled: true
min_overlap: 2
refresh_interval: 60Solución de Problemas
Las verificaciones de atención no aparecen
- Verifica que la ruta de
items_filesea correcta (relativa al directorio de la tarea) - Comprueba que los elementos tengan los campos requeridos (
id,expected_answer) - Asegúrate de que
frequencyoprobabilityestén configurados
Las métricas de acuerdo muestran "No items with N+ annotators"
- Asegúrate de que los elementos hayan sido anotados por múltiples usuarios
- Reduce
min_overlapsi es necesario - Verifica que las anotaciones se estén guardando correctamente
Lectura Adicional
- Fase de Entrenamiento - Cualificación del anotador
- Panel de Administración - Monitoreo de métricas
- Asignación de Tareas - Controlar la distribución de anotaciones
Para detalles de implementación, consulta la documentación fuente.