Halluzinationen mit Span-Annotation aufspüren
Spüren Sie Halluzinationen und Faktenfehler von Modellen auf, indem Sie die genauen Wörter hervorheben und im MQM-Stil mit Span-Annotation in Potato kennzeichnen, was falsch ist.
Wenn ein Modell etwas erfindet, sagt Ihnen ein Daumen nach unten für die gesamte Antwort fast nichts. Sie wissen, dass irgendwo etwas falsch ist. Sie wissen nicht, welcher Satz, welche Art von Fehler oder wie schwerwiegend er ist. Span-Annotation behebt das: Der Annotator hebt die genauen Wörter hervor und kennzeichnet, was an ihnen falsch ist.
Das ist dieselbe Idee, die hinter MQM steckt, dem Fehler-Span-Rahmenwerk, das die Evaluierung maschineller Übersetzung seit Jahren verwendet. Markieren Sie den Span, kategorisieren Sie den Fehler, bewerten Sie den Schweregrad. Das Ergebnis sind Daten, mit denen Sie tatsächlich etwas anfangen können.
Warum Spans besser sind als Markierungen für die gesamte Antwort
Ein „nicht treu"-Label für die gesamte Antwort ist eine zusammenfassende Kennzahl. Ein Span ist ein Ort und eine Diagnose. Mit Spans können Sie Fehlerraten pro Typ messen, Muster über viele Ausgaben hinweg erkennen und gezielte Trainingsdaten für den Fehlertyp aufbauen, der Sie interessiert. Nichts davon ist möglich, wenn die Beurteilungseinheit die gesamte Antwort ist.
Die Einrichtung in Potato
Heben Sie den problematischen Text hervor, kennzeichnen Sie den Fehlertyp und fügen Sie eine Beurteilung des Schweregrads hinzu, damit ein belangloser Ausrutscher und eine gefährliche Erfindung nicht gleich gewichtet werden.
annotation_schemes:
- annotation_type: span
name: errors
description: "Highlight each problematic span and label the error type."
labels: [unsupported_claim, factual_error, contradiction, fabricated_citation]
label_colors:
unsupported_claim: "#f59e0b"
factual_error: "#ef4444"
contradiction: "#8b5cf6"
fabricated_citation: "#ec4899"
- annotation_type: radio
name: severity
description: "How serious is the worst error?"
labels: [Minor, Major, Critical]Die Regeln, die über Ihre Datenqualität entscheiden
Geben Sie den Annotatoren das Quellmaterial. „Nicht belegt" lässt sich ohne dieses nicht definieren, daher müssen die Dokumente oder der Kontext auf dem Bildschirm zu sehen sein, nicht hinter einem Tab.
Legen Sie Ihre Grenzregel ein für alle Mal fest. Deckt der Span den ganzen Satz ab oder nur den falschen Teilsatz? Beides ist vertretbar; entscheiden Sie sich für eines und schreiben Sie es auf.
Rechnen Sie an den Rändern mit Subjektivität. Beurteilungen der Treue gehen bei Grenzfällen auseinander, erfassen Sie also Überlappung bei einer Stichprobe und prüfen Sie die Übereinstimmung, bevor Sie den Zahlen vertrauen.
Wie es weitergeht
Die vollständige Anleitung, einschließlich der Frage, wie man jeden Fehlertyp definiert, finden Sie im Leitfaden zum Erkennen von Halluzinationen. Für die retrieval-gestützte Variante dieses Problems siehe RAG-Evaluierung und den Leitfaden zur Span-Annotation. Für Implementierungsdetails siehe die Quelldokumentation zu Fehler-Spans.