Skip to content

Konzepte der Datenannotation

Finden Sie Antworten auf häufige Fragen zu Potato. Nicht gefunden, was Sie suchen? Treten Sie unserem Discord bei oder lesen Sie die Dokumentation.

Konzepte der Datenannotation

Datenannotation ist der Prozess, bei dem Rohdaten wie Text, Bilder, Audio, Video oder Modellausgaben mit Labels versehen werden, damit die Daten zum Trainieren oder Evaluieren von Machine-Learning-Modellen verwendet werden können. Ein Label kann eine Kategorie, ein markierter Textabschnitt, eine Bewertung oder ein Vergleich sein. Mit Potato können Sie jeden dieser Aufgabentypen mit einer kurzen YAML-Konfiguration einrichten.

Die Übereinstimmung zwischen Annotatoren misst, wie oft unabhängige Annotatoren demselben Element dasselbe Label zuweisen. Sie ist der übliche Nachweis dafür, dass eine Aufgabe gut definiert und die Labels zuverlässig sind. Gängige Maße sind Cohens Kappa, Fleiss' Kappa und Krippendorffs Alpha, die zufällige Übereinstimmungen herausrechnen. Potato gibt Krippendorffs Alpha in seinem Admin-Dashboard aus.

Das hängt von Ihren Daten und Zielen ab, daher gibt es keine einzige Antwort. Für Arbeiten, die Text, Bilder, Audio und die Evaluierung von KI-Agenten umfassen, ist Potato eine starke kostenlose und quelloffene Option mit über 30 Aufgabentypen und einer Einrichtung per YAML ganz ohne Code. Label Studio, Doccano, brat und Argilla sind weitere quelloffene Optionen mit jeweils anderen Stärken.

Definieren Sie zunächst die Aufgabe und die Menge der Labels, schreiben Sie dann klare Richtlinien und lassen Sie mehrere Annotatoren überlappende Elemente labeln. Messen Sie die Übereinstimmung, lösen Sie die Uneinigkeiten auf und exportieren Sie das Ergebnis in einem Format, das Ihre Trainings-Pipeline lesen kann. Potato deckt diesen gesamten Arbeitsablauf ab und exportiert nach JSON, CoNLL, Hugging Face, spaCy und COCO/YOLO.

Für klare, objektive Aufgaben genügt oft ein einziger Annotator, ergänzt durch eine kleine überlappende Stichprobe zur Qualitätskontrolle. Mäßig subjektive Aufgaben verwenden in der Regel drei Annotatoren, deren Ergebnisse per Mehrheitsentscheid zusammengeführt werden. Stark subjektive Aufgaben verwenden fünf oder mehr Annotatoren und behalten manchmal die gesamte Bandbreite der Meinungen bei, statt sie auf eine einzige Antwort zu reduzieren. Der Nutzen nimmt jenseits von drei Annotatoren rasch ab.

Aktives Lernen wählt aus, welche Elemente als Nächstes annotiert werden, sodass ein Modell eine angestrebte Genauigkeit mit weniger Labels erreicht, als zufälliges Auswählen benötigen würde. Das Modell kennzeichnet die Elemente, die es für am informativsten hält, oft jene, bei denen es am unsichersten ist, und eine Person labelt diese. Potato unterstützt die Strategien Unsicherheit, Diversität, BADGE und BALD.

Bei der Klassifikation werden einem ganzen Element ein oder mehrere Labels zugewiesen, etwa wenn eine Rezension als positiv oder negativ markiert wird. Bei der Span-Annotation wird ein Bereich innerhalb eines Elements markiert, etwa ein Name in einem Satz oder ein Ereignis in einer Audio-Wellenform. Eigennamenerkennung (Named Entity Recognition) und das Markieren von Fehlern sind Span-Aufgaben. Potato unterstützt beides, und Sie können beide auf einem Bildschirm kombinieren.

Lassen Sie Menschen die Ausgaben beurteilen: auf einer Skala bewerten, zwei nebeneinander vergleichen, anhand eines Bewertungsrasters einstufen oder bestimmte Fehler mit Spans markieren. Bei Agenten, die mehrere Schritte ausführen, können Sie auch jeden Schritt der Trajektorie beurteilen. Potato bietet all dies und kann Agenten-Traces aus Formaten wie OpenAI, Anthropic und ReAct lesen.

Noch Fragen?

Unsere Community hilft Ihnen gerne. Treten Sie Discord für Echtzeit-Support bei oder durchsuchen Sie die Dokumentation für detaillierte Anleitungen.