Skip to content
Guides3 min read

Detectar alucinaciones con anotación de fragmentos

Detecta las alucinaciones y los errores factuales de un modelo resaltando las palabras exactas y etiquetando qué está mal, al estilo MQM, con anotación de fragmentos en Potato.

Potato Team

Cuando un modelo se inventa algo, un pulgar hacia abajo sobre toda la respuesta no te dice casi nada. Sabes que está mal en alguna parte. No sabes qué frase, qué tipo de error, ni cuán grave es. La anotación de fragmentos resuelve esto: el anotador resalta las palabras exactas y etiqueta qué tienen de incorrecto.

Es la misma idea que está detrás de MQM, el marco de fragmentos de error que la evaluación de traducción automática lleva años usando. Marca el fragmento, categoriza el error, valora la gravedad. El resultado son datos sobre los que realmente puedes actuar.

Por qué los fragmentos superan a las marcas sobre la respuesta completa

Una etiqueta de "no fiel" sobre la respuesta completa es un estadístico resumido. Un fragmento es una ubicación y un diagnóstico. Con los fragmentos puedes medir las tasas de error por tipo, detectar patrones a lo largo de muchas salidas y crear datos de entrenamiento específicos para el modo de fallo que te interesa. Nada de eso es posible cuando la unidad de juicio es la respuesta entera.

Cómo configurarlo en Potato

Resalta el texto problemático, etiqueta el tipo de error y añade un juicio de gravedad para que un desliz trivial y una invención peligrosa no se ponderen igual.

yaml
annotation_schemes:
  - annotation_type: span
    name: errors
    description: "Highlight each problematic span and label the error type."
    labels: [unsupported_claim, factual_error, contradiction, fabricated_citation]
    label_colors:
      unsupported_claim: "#f59e0b"
      factual_error: "#ef4444"
      contradiction: "#8b5cf6"
      fabricated_citation: "#ec4899"
  - annotation_type: radio
    name: severity
    description: "How serious is the worst error?"
    labels: [Minor, Major, Critical]

Las reglas que deciden la calidad de tus datos

Da a los anotadores el material de origen. "Sin respaldo" es indefinible sin él, así que los documentos o el contexto tienen que estar en pantalla, no detrás de una pestaña.

Decide tu regla de delimitación una sola vez. ¿El fragmento abarca toda la frase o solo la cláusula falsa? Ambas opciones son defendibles; elige una y déjala por escrito.

Espera subjetividad en los casos límite. Los juicios de fidelidad divergen en los casos fronterizos, así que reúne solapamiento en una muestra y comprueba la concordancia antes de fiarte de las cifras.

Cómo continuar

El recorrido completo, incluido cómo definir cada tipo de error, está en la guía para detectar alucinaciones. Para la versión de este problema fundamentada en la recuperación, consulta Evaluación de RAG y la guía de anotación de fragmentos. Para detalles de implementación, consulta la documentación de origen sobre fragmentos de error.