Skip to content

Detectar alucinações com anotação de spans

Como encontrar e rotular alucinações e erros factuais na saída de modelos usando anotação de spans e marcação de erros no estilo MQM no Potato.

Uma alucinação é uma afirmação que um modelo faz com confiança, mas que não tem respaldo na sua entrada nem nos fatos. A forma mais útil de capturá-la é destacar exatamente as palavras erradas e rotular o que há de errado nelas, uma tarefa de anotação de spans sobre a saída do modelo. Rótulos no nível do span são muito mais acionáveis do que uma única sinalização de "esta resposta está errada".

Para mais contexto, consulte alucinação (inteligência artificial).

Por que marcar spans, e não respostas inteiras

Um rótulo de "infiel" aplicado à resposta inteira diz que algo está errado; um span diz o quê e onde. Dados de span permitem medir taxas de erro por tipo, encontrar padrões e montar dados de treinamento direcionados. Isso espelha o MQM (Multidimensional Quality Metrics), o framework padrão de spans de erro vindo da avaliação de tradução automática.

Configurar a anotação de spans de erro

yaml
annotation_schemes:
  - annotation_type: span
    name: errors
    description: "Highlight each problematic span and label the error type."
    labels: [unsupported_claim, factual_error, contradiction, fabricated_citation]
    label_colors:
      unsupported_claim: "#f59e0b"
      factual_error: "#ef4444"
      contradiction: "#8b5cf6"
      fabricated_citation: "#ec4899"
  - annotation_type: radio
    name: severity
    description: "How serious is the worst error?"
    labels: [Minor, Major, Critical]

Acrescente um julgamento de severidade para poder ponderar um deslize trivial de forma diferente de uma fabricação perigosa, como faz o MQM.

Definir os tipos de erro

  • Afirmação sem respaldo: não está embasada na fonte (o caso de RAG).
  • Erro factual: contradiz um fato estabelecido.
  • Contradição: conflita com algo anterior na mesma saída.
  • Citação fabricada: uma referência que não existe ou que não diz o que se afirma.

Mantenha o conjunto pequeno e dê a cada item uma definição de uma linha com um exemplo, conforme Escrever diretrizes de anotação.

Considerações de qualidade

  • Dê aos anotadores o material de origem; "sem respaldo" é indefinível sem ele.
  • Regras de fronteira importam, o span cobre a frase inteira ou apenas a oração falsa? Decida de uma vez.
  • A fidelidade é subjetiva nos limites; colete sobreposição e acompanhe a concordância.

Leituras adicionais