Exportando Anotações para Machine Learning

Como exportar anotações do Potato para formatos prontos para ML — JSON/JSONL, CoNLL, Hugging Face Datasets, spaCy, COCO e YOLO — e para que serve cada um.

O objetivo da anotação costuma ser treinar ou avaliar um modelo, então o formato de exportação importa. O Potato grava JSON/JSONL/CSV simples e também formatos nativos de ML que os pipelines de treinamento leem diretamente, sem código de cola. Escolher o formato de destino antes de rotular indica como estruturar seus dados e IDs.

Para a referência, consulte Formatos de Exportação.

Escolha o formato certo para a tarefa

Formato	Use para
JSON / JSONL	Uso geral; um registro por item. O padrão seguro.
CSV	Planilhas e análise rápida de rótulos de classificação.
CoNLL	Rotulagem de sequências em nível de token (NER, chunking) com etiquetas BIO.
Hugging Face Datasets	Carregamento direto no treinamento com `transformers`.
spaCy	Treinamento de modelos spaCy de NER e classificação de texto.
COCO / YOLO	Detecção e segmentação de objetos a partir de anotação de imagens.
Parquet	Armazenamento colunar e análise em larga escala. Consulte Exportação Parquet.

Definindo o formato de saída

yaml

output_annotation_dir: "annotation_output/"
output_annotation_format: "jsonl"   # json, csv, conll, ...

O que vai parar na exportação

Um registro típico carrega o ID do item, o conteúdo original, os rótulos de cada anotador e metadados (quem, quando). Manter os rótulos de todos os anotadores, em vez de apenas um valor agregado, permite calcular a concordância e reagregar mais tarde com um método diferente.

Planeje a exportação antes de rotular

O formato de exportação restringe o design da entrada. Exportações de rotulagem de sequências precisam de tokenização consistente; COCO/YOLO precisam das dimensões da imagem; o Hugging Face precisa de um conjunto de rótulos estável. Decida o destino primeiro para não ter de repetir o estudo. Consulte Projetando Formatos de Dados para Anotação.

Exportando Anotações para Machine Learning

Escolha o formato certo para a tarefa

Definindo o formato de saída

O que vai parar na exportação

Planeje a exportação antes de rotular

Leitura adicional