Concepts d'annotation de données
Trouvez les réponses aux questions courantes sur Potato. Vous ne trouvez pas ce que vous cherchez ? Rejoignez notre Discord ou consultez la documentation.
Concepts d'annotation de données
L'annotation de données est le processus qui consiste à ajouter des étiquettes à des données brutes telles que du texte, des images, de l'audio, de la vidéo ou des sorties de modèles, afin que ces données puissent servir à entraîner ou à évaluer des modèles d'apprentissage automatique. Une étiquette peut être une catégorie, un segment surligné, une note ou une comparaison. Potato vous permet de configurer n'importe lequel de ces types de tâches avec une courte configuration YAML.
L'accord inter-annotateurs mesure la fréquence à laquelle des annotateurs indépendants attribuent la même étiquette au même élément. C'est la preuve standard qu'une tâche est bien définie et que les étiquettes sont fiables. Les mesures courantes sont le kappa de Cohen, le kappa de Fleiss et l'alpha de Krippendorff, qui corrigent l'accord susceptible de survenir par hasard. Potato rapporte l'alpha de Krippendorff dans son tableau de bord d'administration.
Cela dépend de vos données et de vos objectifs, il n'y a donc pas de réponse unique. Pour un travail couvrant le texte, les images, l'audio et l'évaluation d'agents d'IA, Potato est une solide option gratuite et open source, avec plus de 30 types de tâches et une configuration YAML sans code. Label Studio, Doccano, brat et Argilla sont d'autres choix open source aux forces différentes.
Commencez par définir la tâche et l'ensemble des étiquettes, puis rédigez des directives claires et faites étiqueter des éléments qui se recoupent par plusieurs annotateurs. Mesurez l'accord, résolvez les désaccords et exportez le résultat dans un format lisible par votre pipeline d'entraînement. Potato couvre l'ensemble de ce flux de travail et exporte vers JSON, CoNLL, Hugging Face, spaCy et COCO/YOLO.
Les tâches claires et objectives peuvent souvent se contenter d'un seul annotateur, avec un petit échantillon recoupé pour les contrôles qualité. Les tâches modérément subjectives utilisent généralement trois annotateurs, les résultats étant tranchés par vote majoritaire. Les tâches très subjectives en utilisent cinq ou plus, et conservent parfois l'ensemble des opinions plutôt que de les ramener à une seule réponse. Le bénéfice diminue rapidement au-delà de trois.
L'apprentissage actif choisit les éléments à annoter en priorité afin qu'un modèle atteigne une précision cible avec moins d'étiquettes qu'un échantillonnage aléatoire n'en exigerait. Le modèle signale les éléments qu'il juge les plus informatifs, souvent ceux dont il est le moins certain, et une personne les étiquette. Potato prend en charge les stratégies d'incertitude, de diversité, BADGE et BALD.
La classification attribue une ou plusieurs étiquettes à un élément entier, par exemple en marquant un avis comme positif ou négatif. L'annotation de segments marque une région à l'intérieur d'un élément, comme surligner un nom dans une phrase ou un événement sur une forme d'onde audio. La reconnaissance d'entités nommées et le marquage d'erreurs sont des tâches de segments. Potato prend en charge les deux, et vous pouvez les combiner sur un même écran.
Faites juger les sorties par des personnes : notez-les sur une échelle, comparez-en deux côte à côte, évaluez-les par rapport à une grille de critères ou marquez des erreurs précises avec des segments. Pour les agents qui effectuent plusieurs étapes, vous pouvez aussi juger chaque étape de la trajectoire. Potato propose toutes ces possibilités et peut lire les traces d'agents à partir de formats tels qu'OpenAI, Anthropic et ReAct.
Encore des questions ?
Notre communauté est là pour vous aider. Rejoignez Discord pour une assistance en temps réel ou consultez la documentation pour des guides détaillés.