Question 1

O que é anotação de dados?

Accepted Answer

Anotação de dados é o processo de adicionar rótulos a dados brutos como texto, imagens, áudio, vídeo ou saídas de modelos, para que os dados possam ser usados no treino ou na avaliação de modelos de aprendizado de máquina. Um rótulo pode ser uma categoria, um trecho destacado, uma avaliação ou uma comparação. O Potato permite montar qualquer um desses tipos de tarefa com uma configuração curta em YAML.

Question 2

O que é concordância entre anotadores?

Accepted Answer

A concordância entre anotadores mede com que frequência anotadores independentes atribuem o mesmo rótulo ao mesmo item. É a evidência padrão de que uma tarefa está bem definida e os rótulos são confiáveis. Medidas comuns são o Kappa de Cohen, o Kappa de Fleiss e o Alpha de Krippendorff, que corrigem a concordância que aconteceria por acaso. O Potato reporta o Alpha de Krippendorff no painel administrativo.

Question 3

Qual é a melhor ferramenta de anotação gratuita?

Accepted Answer

Depende dos seus dados e objetivos, então não há uma única resposta. Para trabalhos que abrangem texto, imagens, áudio e avaliação de agentes de IA, o Potato é uma forte opção gratuita e de código aberto, com mais de 50 tipos de tarefa e configuração em YAML sem código. Label Studio, Doccano, brat e Argilla são outras opções de código aberto com pontos fortes diferentes.

Question 4

Como rotulo dados para aprendizado de máquina?

Accepted Answer

Comece definindo a tarefa e o conjunto de rótulos, depois escreva diretrizes claras e peça a vários anotadores que rotulem itens sobrepostos. Meça a concordância, resolva os desacordos e exporte o resultado em um formato que seu pipeline de treino consiga ler. O Potato cobre todo esse fluxo e exporta para JSON, CoNLL, Hugging Face, spaCy e COCO/YOLO.

Question 5

De quantos anotadores preciso por item?

Accepted Answer

Tarefas claras e objetivas costumam usar um anotador, com uma pequena amostra sobreposta para verificações de qualidade. Tarefas moderadamente subjetivas geralmente usam três anotadores, resolvidos por voto da maioria. Tarefas muito subjetivas usam cinco ou mais, e às vezes mantêm toda a gama de opiniões em vez de reduzir a uma única resposta. O benefício diminui rápido depois de três.

Question 6

O que é aprendizado ativo na anotação de dados?

Accepted Answer

O aprendizado ativo escolhe quais itens anotar em seguida para que um modelo atinja uma acurácia-alvo com menos rótulos do que a amostragem aleatória exigiria. O modelo sinaliza os itens que considera mais informativos, muitas vezes aqueles sobre os quais está menos certo, e uma pessoa os rotula. O Potato suporta as estratégias de incerteza, diversidade, BADGE e BALD.

Question 7

Qual é a diferença entre classificação e anotação de span?

Accepted Answer

A classificação atribui um ou mais rótulos a um item inteiro, como marcar uma avaliação como positiva ou negativa. A anotação de span marca uma região dentro de um item, como destacar um nome em uma frase ou um evento em uma forma de onda de áudio. Reconhecimento de entidades nomeadas e marcação de erros são tarefas de span. O Potato suporta ambas, e você pode combiná-las em uma única tela.

Question 8

Como avalio as saídas de um LLM ou agente de IA?

Accepted Answer

Peça que pessoas julguem as saídas: avaliem em uma escala, comparem duas lado a lado, pontuem com base em uma rubrica ou marquem erros específicos com spans. Para agentes que executam várias etapas, você também pode julgar cada etapa da trajetória. O Potato oferece todas essas opções e consegue ler rastros de agentes em formatos como OpenAI, Anthropic e ReAct.

Conceitos de anotação de dados

Conceitos de anotação de dados

Ainda tem dúvidas?