Skip to content

Exportando Anotações para Machine Learning

Como exportar anotações do Potato para formatos prontos para ML — JSON/JSONL, CoNLL, Hugging Face Datasets, spaCy, COCO e YOLO — e para que serve cada um.

O objetivo da anotação costuma ser treinar ou avaliar um modelo, então o formato de exportação importa. O Potato grava JSON/JSONL/CSV simples e também formatos nativos de ML que os pipelines de treinamento leem diretamente, sem código de cola. Escolher o formato de destino antes de rotular indica como estruturar seus dados e IDs.

Para a referência, consulte Formatos de Exportação.

Escolha o formato certo para a tarefa

FormatoUse para
JSON / JSONLUso geral; um registro por item. O padrão seguro.
CSVPlanilhas e análise rápida de rótulos de classificação.
CoNLLRotulagem de sequências em nível de token (NER, chunking) com etiquetas BIO.
Hugging Face DatasetsCarregamento direto no treinamento com transformers.
spaCyTreinamento de modelos spaCy de NER e classificação de texto.
COCO / YOLODetecção e segmentação de objetos a partir de anotação de imagens.
ParquetArmazenamento colunar e análise em larga escala. Consulte Exportação Parquet.

Definindo o formato de saída

yaml
output_annotation_dir: "annotation_output/"
output_annotation_format: "jsonl"   # json, csv, conll, ...

O que vai parar na exportação

Um registro típico carrega o ID do item, o conteúdo original, os rótulos de cada anotador e metadados (quem, quando). Manter os rótulos de todos os anotadores, em vez de apenas um valor agregado, permite calcular a concordância e reagregar mais tarde com um método diferente.

Planeje a exportação antes de rotular

O formato de exportação restringe o design da entrada. Exportações de rotulagem de sequências precisam de tokenização consistente; COCO/YOLO precisam das dimensões da imagem; o Hugging Face precisa de um conjunto de rótulos estável. Decida o destino primeiro para não ter de repetir o estudo. Consulte Projetando Formatos de Dados para Anotação.

Leitura adicional