Wenn ein Modell etwas erfindet, sagt Ihnen ein Daumen nach unten für die gesamte Antwort fast nichts. Sie wissen, dass irgendwo etwas falsch ist. Sie wissen nicht, welcher Satz, welche Art von Fehler oder wie schwerwiegend er ist. Span-Annotation behebt das: Der Annotator hebt die genauen Wörter hervor und kennzeichnet, was an ihnen falsch ist.

Das ist dieselbe Idee, die hinter MQM steckt, dem Fehler-Span-Rahmenwerk, das die Evaluierung maschineller Übersetzung seit Jahren verwendet. Markieren Sie den Span, kategorisieren Sie den Fehler, bewerten Sie den Schweregrad. Das Ergebnis sind Daten, mit denen Sie tatsächlich etwas anfangen können.

Warum Spans besser sind als Markierungen für die gesamte Antwort

Ein „nicht treu"-Label für die gesamte Antwort ist eine zusammenfassende Kennzahl. Ein Span ist ein Ort und eine Diagnose. Mit Spans können Sie Fehlerraten pro Typ messen, Muster über viele Ausgaben hinweg erkennen und gezielte Trainingsdaten für den Fehlertyp aufbauen, der Sie interessiert. Nichts davon ist möglich, wenn die Beurteilungseinheit die gesamte Antwort ist.

Die Einrichtung in Potato

Heben Sie den problematischen Text hervor, kennzeichnen Sie den Fehlertyp und fügen Sie eine Beurteilung des Schweregrads hinzu, damit ein belangloser Ausrutscher und eine gefährliche Erfindung nicht gleich gewichtet werden.

yaml

annotation_schemes:
  - annotation_type: span
    name: errors
    description: "Highlight each problematic span and label the error type."
    labels: [unsupported_claim, factual_error, contradiction, fabricated_citation]
    label_colors:
      unsupported_claim: "#f59e0b"
      factual_error: "#ef4444"
      contradiction: "#8b5cf6"
      fabricated_citation: "#ec4899"
  - annotation_type: radio
    name: severity
    description: "How serious is the worst error?"
    labels: [Minor, Major, Critical]

Die Regeln, die über Ihre Datenqualität entscheiden

Geben Sie den Annotatoren das Quellmaterial. „Nicht belegt" lässt sich ohne dieses nicht definieren, daher müssen die Dokumente oder der Kontext auf dem Bildschirm zu sehen sein, nicht hinter einem Tab.

Legen Sie Ihre Grenzregel ein für alle Mal fest. Deckt der Span den ganzen Satz ab oder nur den falschen Teilsatz? Beides ist vertretbar; entscheiden Sie sich für eines und schreiben Sie es auf.

Rechnen Sie an den Rändern mit Subjektivität. Beurteilungen der Treue gehen bei Grenzfällen auseinander, erfassen Sie also Überlappung bei einer Stichprobe und prüfen Sie die Übereinstimmung, bevor Sie den Zahlen vertrauen.

Wie es weitergeht

Die vollständige Anleitung, einschließlich der Frage, wie man jeden Fehlertyp definiert, finden Sie im Leitfaden zum Erkennen von Halluzinationen. Für die retrieval-gestützte Variante dieses Problems siehe RAG-Evaluierung und den Leitfaden zur Span-Annotation. Für Implementierungsdetails siehe die Quelldokumentation zu Fehler-Spans.