Detectar alucinaciones con anotación de fragmentos
Detecta las alucinaciones y los errores factuales de un modelo resaltando las palabras exactas y etiquetando qué está mal, al estilo MQM, con anotación de fragmentos en Potato.
Cuando un modelo se inventa algo, un pulgar hacia abajo sobre toda la respuesta no te dice casi nada. Sabes que está mal en alguna parte. No sabes qué frase, qué tipo de error, ni cuán grave es. La anotación de fragmentos resuelve esto: el anotador resalta las palabras exactas y etiqueta qué tienen de incorrecto.
Es la misma idea que está detrás de MQM, el marco de fragmentos de error que la evaluación de traducción automática lleva años usando. Marca el fragmento, categoriza el error, valora la gravedad. El resultado son datos sobre los que realmente puedes actuar.
Por qué los fragmentos superan a las marcas sobre la respuesta completa
Una etiqueta de "no fiel" sobre la respuesta completa es un estadístico resumido. Un fragmento es una ubicación y un diagnóstico. Con los fragmentos puedes medir las tasas de error por tipo, detectar patrones a lo largo de muchas salidas y crear datos de entrenamiento específicos para el modo de fallo que te interesa. Nada de eso es posible cuando la unidad de juicio es la respuesta entera.
Cómo configurarlo en Potato
Resalta el texto problemático, etiqueta el tipo de error y añade un juicio de gravedad para que un desliz trivial y una invención peligrosa no se ponderen igual.
annotation_schemes:
- annotation_type: span
name: errors
description: "Highlight each problematic span and label the error type."
labels: [unsupported_claim, factual_error, contradiction, fabricated_citation]
label_colors:
unsupported_claim: "#f59e0b"
factual_error: "#ef4444"
contradiction: "#8b5cf6"
fabricated_citation: "#ec4899"
- annotation_type: radio
name: severity
description: "How serious is the worst error?"
labels: [Minor, Major, Critical]Las reglas que deciden la calidad de tus datos
Da a los anotadores el material de origen. "Sin respaldo" es indefinible sin él, así que los documentos o el contexto tienen que estar en pantalla, no detrás de una pestaña.
Decide tu regla de delimitación una sola vez. ¿El fragmento abarca toda la frase o solo la cláusula falsa? Ambas opciones son defendibles; elige una y déjala por escrito.
Espera subjetividad en los casos límite. Los juicios de fidelidad divergen en los casos fronterizos, así que reúne solapamiento en una muestra y comprueba la concordancia antes de fiarte de las cifras.
Cómo continuar
El recorrido completo, incluido cómo definir cada tipo de error, está en la guía para detectar alucinaciones. Para la versión de este problema fundamentada en la recuperación, consulta Evaluación de RAG y la guía de anotación de fragmentos. Para detalles de implementación, consulta la documentación de origen sobre fragmentos de error.