Question 1

Was ist Datenannotation?

Accepted Answer

Datenannotation ist der Prozess, bei dem Rohdaten wie Text, Bilder, Audio, Video oder Modellausgaben mit Labels versehen werden, damit die Daten zum Trainieren oder Evaluieren von Machine-Learning-Modellen verwendet werden können. Ein Label kann eine Kategorie, ein markierter Textabschnitt, eine Bewertung oder ein Vergleich sein. Mit Potato können Sie jeden dieser Aufgabentypen mit einer kurzen YAML-Konfiguration einrichten.

Question 2

Was ist Übereinstimmung zwischen Annotatoren (Inter-Annotator-Agreement)?

Accepted Answer

Die Übereinstimmung zwischen Annotatoren misst, wie oft unabhängige Annotatoren demselben Element dasselbe Label zuweisen. Sie ist der übliche Nachweis dafür, dass eine Aufgabe gut definiert und die Labels zuverlässig sind. Gängige Maße sind Cohens Kappa, Fleiss' Kappa und Krippendorffs Alpha, die zufällige Übereinstimmungen herausrechnen. Potato gibt Krippendorffs Alpha in seinem Admin-Dashboard aus.

Question 3

Was ist das beste kostenlose Annotationswerkzeug?

Accepted Answer

Das hängt von Ihren Daten und Zielen ab, daher gibt es keine einzige Antwort. Für Arbeiten, die Text, Bilder, Audio und die Evaluierung von KI-Agenten umfassen, ist Potato eine starke kostenlose und quelloffene Option mit über 50 Aufgabentypen und einer Einrichtung per YAML ganz ohne Code. Label Studio, Doccano, brat und Argilla sind weitere quelloffene Optionen mit jeweils anderen Stärken.

Question 4

Wie labele ich Daten für maschinelles Lernen?

Accepted Answer

Definieren Sie zunächst die Aufgabe und die Menge der Labels, schreiben Sie dann klare Richtlinien und lassen Sie mehrere Annotatoren überlappende Elemente labeln. Messen Sie die Übereinstimmung, lösen Sie die Uneinigkeiten auf und exportieren Sie das Ergebnis in einem Format, das Ihre Trainings-Pipeline lesen kann. Potato deckt diesen gesamten Arbeitsablauf ab und exportiert nach JSON, CoNLL, Hugging Face, spaCy und COCO/YOLO.

Question 5

Wie viele Annotatoren brauche ich pro Element?

Accepted Answer

Für klare, objektive Aufgaben genügt oft ein einziger Annotator, ergänzt durch eine kleine überlappende Stichprobe zur Qualitätskontrolle. Mäßig subjektive Aufgaben verwenden in der Regel drei Annotatoren, deren Ergebnisse per Mehrheitsentscheid zusammengeführt werden. Stark subjektive Aufgaben verwenden fünf oder mehr Annotatoren und behalten manchmal die gesamte Bandbreite der Meinungen bei, statt sie auf eine einzige Antwort zu reduzieren. Der Nutzen nimmt jenseits von drei Annotatoren rasch ab.

Question 6

Was ist aktives Lernen (Active Learning) bei der Datenannotation?

Accepted Answer

Aktives Lernen wählt aus, welche Elemente als Nächstes annotiert werden, sodass ein Modell eine angestrebte Genauigkeit mit weniger Labels erreicht, als zufälliges Auswählen benötigen würde. Das Modell kennzeichnet die Elemente, die es für am informativsten hält, oft jene, bei denen es am unsichersten ist, und eine Person labelt diese. Potato unterstützt die Strategien Unsicherheit, Diversität, BADGE und BALD.

Question 7

Was ist der Unterschied zwischen Klassifikation und Span-Annotation?

Accepted Answer

Bei der Klassifikation werden einem ganzen Element ein oder mehrere Labels zugewiesen, etwa wenn eine Rezension als positiv oder negativ markiert wird. Bei der Span-Annotation wird ein Bereich innerhalb eines Elements markiert, etwa ein Name in einem Satz oder ein Ereignis in einer Audio-Wellenform. Eigennamenerkennung (Named Entity Recognition) und das Markieren von Fehlern sind Span-Aufgaben. Potato unterstützt beides, und Sie können beide auf einem Bildschirm kombinieren.

Question 8

Wie evaluiere ich die Ausgaben von LLMs oder KI-Agenten?

Accepted Answer

Lassen Sie Menschen die Ausgaben beurteilen: auf einer Skala bewerten, zwei nebeneinander vergleichen, anhand eines Bewertungsrasters einstufen oder bestimmte Fehler mit Spans markieren. Bei Agenten, die mehrere Schritte ausführen, können Sie auch jeden Schritt der Trajektorie beurteilen. Potato bietet all dies und kann Agenten-Traces aus Formaten wie OpenAI, Anthropic und ReAct lesen.

Konzepte der Datenannotation

Konzepte der Datenannotation

Noch Fragen?