Exportando Anotações para Machine Learning
Como exportar anotações do Potato para formatos prontos para ML — JSON/JSONL, CoNLL, Hugging Face Datasets, spaCy, COCO e YOLO — e para que serve cada um.
O objetivo da anotação costuma ser treinar ou avaliar um modelo, então o formato de exportação importa. O Potato grava JSON/JSONL/CSV simples e também formatos nativos de ML que os pipelines de treinamento leem diretamente, sem código de cola. Escolher o formato de destino antes de rotular indica como estruturar seus dados e IDs.
Para a referência, consulte Formatos de Exportação.
Escolha o formato certo para a tarefa
| Formato | Use para |
|---|---|
| JSON / JSONL | Uso geral; um registro por item. O padrão seguro. |
| CSV | Planilhas e análise rápida de rótulos de classificação. |
| CoNLL | Rotulagem de sequências em nível de token (NER, chunking) com etiquetas BIO. |
| Hugging Face Datasets | Carregamento direto no treinamento com transformers. |
| spaCy | Treinamento de modelos spaCy de NER e classificação de texto. |
| COCO / YOLO | Detecção e segmentação de objetos a partir de anotação de imagens. |
| Parquet | Armazenamento colunar e análise em larga escala. Consulte Exportação Parquet. |
Definindo o formato de saída
output_annotation_dir: "annotation_output/"
output_annotation_format: "jsonl" # json, csv, conll, ...O que vai parar na exportação
Um registro típico carrega o ID do item, o conteúdo original, os rótulos de cada anotador e metadados (quem, quando). Manter os rótulos de todos os anotadores, em vez de apenas um valor agregado, permite calcular a concordância e reagregar mais tarde com um método diferente.
Planeje a exportação antes de rotular
O formato de exportação restringe o design da entrada. Exportações de rotulagem de sequências precisam de tokenização consistente; COCO/YOLO precisam das dimensões da imagem; o Hugging Face precisa de um conjunto de rótulos estável. Decida o destino primeiro para não ter de repetir o estudo. Consulte Projetando Formatos de Dados para Anotação.