Conceitos de anotação de dados
Encontre respostas para dúvidas comuns sobre o Potato. Não achou o que procura? Entre no nosso Discord ou consulte a documentação.
Conceitos de anotação de dados
Anotação de dados é o processo de adicionar rótulos a dados brutos como texto, imagens, áudio, vídeo ou saídas de modelos, para que os dados possam ser usados no treino ou na avaliação de modelos de aprendizado de máquina. Um rótulo pode ser uma categoria, um trecho destacado, uma avaliação ou uma comparação. O Potato permite montar qualquer um desses tipos de tarefa com uma configuração curta em YAML.
A concordância entre anotadores mede com que frequência anotadores independentes atribuem o mesmo rótulo ao mesmo item. É a evidência padrão de que uma tarefa está bem definida e os rótulos são confiáveis. Medidas comuns são o Kappa de Cohen, o Kappa de Fleiss e o Alpha de Krippendorff, que corrigem a concordância que aconteceria por acaso. O Potato reporta o Alpha de Krippendorff no painel administrativo.
Depende dos seus dados e objetivos, então não há uma única resposta. Para trabalhos que abrangem texto, imagens, áudio e avaliação de agentes de IA, o Potato é uma forte opção gratuita e de código aberto, com mais de 30 tipos de tarefa e configuração em YAML sem código. Label Studio, Doccano, brat e Argilla são outras opções de código aberto com pontos fortes diferentes.
Comece definindo a tarefa e o conjunto de rótulos, depois escreva diretrizes claras e peça a vários anotadores que rotulem itens sobrepostos. Meça a concordância, resolva os desacordos e exporte o resultado em um formato que seu pipeline de treino consiga ler. O Potato cobre todo esse fluxo e exporta para JSON, CoNLL, Hugging Face, spaCy e COCO/YOLO.
Tarefas claras e objetivas costumam usar um anotador, com uma pequena amostra sobreposta para verificações de qualidade. Tarefas moderadamente subjetivas geralmente usam três anotadores, resolvidos por voto da maioria. Tarefas muito subjetivas usam cinco ou mais, e às vezes mantêm toda a gama de opiniões em vez de reduzir a uma única resposta. O benefício diminui rápido depois de três.
O aprendizado ativo escolhe quais itens anotar em seguida para que um modelo atinja uma acurácia-alvo com menos rótulos do que a amostragem aleatória exigiria. O modelo sinaliza os itens que considera mais informativos, muitas vezes aqueles sobre os quais está menos certo, e uma pessoa os rotula. O Potato suporta as estratégias de incerteza, diversidade, BADGE e BALD.
A classificação atribui um ou mais rótulos a um item inteiro, como marcar uma avaliação como positiva ou negativa. A anotação de span marca uma região dentro de um item, como destacar um nome em uma frase ou um evento em uma forma de onda de áudio. Reconhecimento de entidades nomeadas e marcação de erros são tarefas de span. O Potato suporta ambas, e você pode combiná-las em uma única tela.
Peça que pessoas julguem as saídas: avaliem em uma escala, comparem duas lado a lado, pontuem com base em uma rubrica ou marquem erros específicos com spans. Para agentes que executam várias etapas, você também pode julgar cada etapa da trajetória. O Potato oferece todas essas opções e consegue ler rastros de agentes em formatos como OpenAI, Anthropic e ReAct.
Ainda tem dúvidas?
Nossa comunidade está aqui para ajudar. Entre no Discord para suporte em tempo real ou consulte a documentação para guias detalhados.