Entendendo os Formatos de Dados do Potato
Um mergulho profundo nos formatos de dados JSON e JSONL no Potato, estruturando instâncias para anotação de texto, imagem, áudio, vídeo e multimodal com exemplos reais de configuração.
O Potato lê dados de entrada e escreve anotações em JSON e JSONL. Não há muito segredo, mas os detalhes importam quando seu conjunto de dados cresce ou você começa a misturar texto com imagens e áudio. Este guia percorre os formatos com exemplos funcionais para cada tipo de dado.
Formatos de dados de entrada
JSON Lines (JSONL)
Um objeto JSON por linha. Este é o formato que você deve buscar primeiro:
{"id": "001", "text": "First document text here."}
{"id": "002", "text": "Second document text here."}
{"id": "003", "text": "Third document text here."}Por que JSONL: você pode processá-lo linha por linha em vez de carregar o arquivo inteiro na memória, acrescentar um novo registro é só adicionar uma linha, e uma linha malformada não derruba o resto do arquivo.
Array JSON
Array JSON padrão:
[
{"id": "001", "text": "First document."},
{"id": "002", "text": "Second document."},
{"id": "003", "text": "Third document."}
]Configuração:
data_files:
- data/items.jsonDados de Anotação de Texto
Texto Básico
{"id": "doc_001", "text": "The product quality exceeded my expectations."}Com Metadados
{
"id": "review_001",
"text": "Great product, fast shipping!",
"metadata": {
"source": "amazon",
"date": "2024-01-15",
"author": "user123",
"rating": 5
}
}Com Pré-anotações
{
"id": "ner_001",
"text": "Apple announced new products in Cupertino.",
"pre_annotations": {
"entities": [
{"start": 0, "end": 5, "label": "ORG", "text": "Apple"},
{"start": 31, "end": 40, "label": "LOC", "text": "Cupertino"}
]
}
}Configuração:
data_files:
- data/texts.json
item_properties:
id_key: id
text_key: textDados de Anotação de Imagem
Imagens Locais
{
"id": "img_001",
"image_path": "/data/images/photo_001.jpg",
"caption": "Street scene in Paris"
}Imagens Remotas
{
"id": "img_002",
"image_url": "https://example.com/images/photo.jpg"
}Com Caixas Delimitadoras
{
"id": "detection_001",
"image_path": "/images/street.jpg",
"pre_annotations": {
"objects": [
{"bbox": [100, 150, 200, 300], "label": "person"},
{"bbox": [350, 200, 450, 280], "label": "car"}
]
}
}Configuração:
data_files:
- data/images.json
item_properties:
id_key: id
image_key: image_path # or image_urlDados de Anotação de Áudio
Áudio Local
{
"id": "audio_001",
"audio_path": "/data/audio/recording.wav",
"duration": 45.5,
"transcript": "Hello, how are you today?"
}Com Segmentos
{
"id": "audio_002",
"audio_path": "/audio/meeting.mp3",
"segments": [
{"start": 0.0, "end": 5.5, "speaker": "Speaker1"},
{"start": 5.5, "end": 12.0, "speaker": "Speaker2"}
]
}Configuração:
data_files:
- data/audio.json
item_properties:
audio_key: audio_path
text_key: transcriptDados Multimodais
Texto + Imagem
{
"id": "mm_001",
"text": "What is shown in this image?",
"image_path": "/images/scene.jpg"
}Texto + Áudio
{
"id": "mm_002",
"text": "Transcribe this audio:",
"audio_path": "/audio/clip.wav",
"reference_transcript": "Expected transcription here"
}Formato de Saída de Anotação
Saída Básica
{
"id": "doc_001",
"text": "Great product!",
"annotations": {
"sentiment": "Positive",
"confidence": 5
},
"annotator": "user123",
"timestamp": "2024-11-05T10:30:00Z"
}Anotações de Span
{
"id": "ner_001",
"text": "Apple CEO Tim Cook visited Paris.",
"annotations": {
"entities": [
{"start": 0, "end": 5, "label": "ORG", "text": "Apple"},
{"start": 10, "end": 18, "label": "PERSON", "text": "Tim Cook"},
{"start": 27, "end": 32, "label": "LOC", "text": "Paris"}
]
}
}Múltiplos Anotadores
{
"id": "item_001",
"text": "Sample text",
"annotations": [
{
"annotator": "ann1",
"labels": {"sentiment": "Positive"},
"timestamp": "2024-11-05T10:00:00Z"
},
{
"annotator": "ann2",
"labels": {"sentiment": "Positive"},
"timestamp": "2024-11-05T11:00:00Z"
}
],
"aggregated": {
"sentiment": "Positive",
"agreement": 1.0
}
}Referência de Configuração
data_files:
- data/items.json
item_properties:
id_key: id
text_key: text
image_key: image_path
audio_key: audio_pathAlguns hábitos que evitam dores de cabeça
Dê a cada instância um ID único; você vai querê-lo no instante em que precisar rastrear uma anotação até sua origem. Recorra ao JSONL assim que o arquivo ficar grande. Valide o JSON antes de carregá-lo, porque uma única vírgula perdida falha tarde e de forma confusa. Mantenha metadados como origem, data e autor por perto mesmo que você não os use agora, já que isso facilita muito a depuração depois. E escolha nomes de campos e mantenha-os, para que os scripts seguintes não precisem de um caso especial para cada arquivo.
Para a lista completa de chaves suportadas, veja a documentação de formato de dados.
Documentação completa de formato de dados em /docs/core-concepts/data-formats.