Como projetar formatos de dados para anotação
Como estruturar os dados de entrada (JSON, JSONL, CSV) de um projeto de anotação, quais campos o Potato espera e como planejar uma exportação limpa para seus pipelines de treinamento.
Uma boa anotação começa com uma entrada bem estruturada. Cada item precisa de um identificador único estável e do conteúdo a ser rotulado; todo o resto é contexto opcional. Acertar isso no início poupa repetições dolorosas mais adiante, porque as anotações ficam vinculadas aos IDs dos seus itens.
Os formatos de intercâmbio mais comuns são JSON, JSON Lines (um objeto por linha, ideal para grandes conjuntos de dados) e CSV. O Potato lê os três. Para a referência completa, consulte Formatos de dados.
O mínimo que cada item precisa
- Um ID único que nunca mude. As anotações são salvas vinculadas a esse ID, então, se você renumerar os itens no meio do projeto, perde o vínculo com os rótulos existentes.
- O conteúdo a ser anotado: um campo de texto, uma URL de imagem, um caminho de áudio ou um traço estruturado.
Um arquivo JSONL para uma tarefa de texto tem este aspecto:
{"id": "rev_001", "text": "The battery lasts all day. Highly recommend."}
{"id": "rev_002", "text": "Stopped working after a week."}Você indica ao Potato quais chaves usar:
item_properties:
id_key: id
text_key: text
data_files:
- "data/reviews.jsonl"Leve o contexto junto, mas mantenha-o separado dos rótulos
Campos extras, uma URL de origem, um carimbo de data/hora, o nome de um modelo, podem acompanhar cada item e ser exibidos aos anotadores sem se tornarem rótulos. Dê nomes claros a eles para que a exportação seja fácil de ler depois.
Planeje a exportação antes de rotular
Decida cedo como os dados rotulados vão alimentar seu pipeline. O Potato exporta para JSON, JSONL e CSV, e para formatos nativos de ML como CoNLL para rotulagem de sequências, Hugging Face Datasets, spaCy e COCO/YOLO para visão. Escolher o formato de destino logo no início mostra quais campos e qual esquema de ID usar agora. Veja Como exportar anotações para ML.
output_annotation_dir: "annotation_output/"
output_annotation_format: "jsonl"Leitura complementar
- Referência de formatos de dados
- Exibição de instâncias, como o conteúdo é mostrado
- O que é anotação de dados?