Diese Seite ist in Ihrer Sprache noch nicht verfügbar. Englische Version wird angezeigt.

Ordinamento per Diversità

Diversificazione degli elementi basata su embedding per massimizzare la varietà delle annotazioni.

Ordinamento per Diversità

L'ordinamento per diversità usa embedding sentence-transformer per raggruppare gli elementi simili, poi campiona gli elementi in modo round-robin da cluster diversi. Questo garantisce che gli annotatori vedano contenuti diversificati piuttosto che elementi simili in sequenza.

Vantaggi

Riduce l'affaticamento degli annotatori da contenuti ripetitivi
Migliora la qualità delle annotazioni attraverso contesti variati
Copertura più rapida dell'intero spazio degli argomenti

Avvio Rapido

yaml

assignment_strategy: diversity_clustering
 
diversity_ordering:
  enabled: true
  prefill_count: 100

Come Funziona

Avvio: I primi N elementi vengono incorporati usando sentence-transformers e raggruppati con k-means
Assegnazione: Gli elementi vengono campionati round-robin dai cluster, garantendo varietà
Annotazione: I nuovi elementi vengono incorporati in modo asincrono man mano che vengono annotati
Re-clustering: Quando un utente ha campionato da tutti i cluster, il sistema effettua nuovamente il clustering

Configurazione

yaml

diversity_ordering:
  enabled: true
 
  # Modello sentence-transformer
  model_name: "all-MiniLM-L6-v2"
 
  # Parametri di clustering
  num_clusters: 10
  items_per_cluster: 20
  auto_clusters: true           # Calcola automaticamente in base alla dimensione dei dati
 
  # Pre-compilazione all'avvio
  prefill_count: 100
  batch_size: 32
 
  # Comportamento di re-clustering
  recluster_threshold: 1.0      # Ri-clustera quando tutti i cluster sono stati campionati
 
  # Preservazione dell'ordine
  preserve_visited: true
 
  # Integrazione AI
  trigger_ai_prefetch: true

Riferimento alla Configurazione

Opzione	Tipo	Predefinito	Descrizione
`enabled`	booleano	`false`	Abilita l'ordinamento per diversità
`model_name`	stringa	`"all-MiniLM-L6-v2"`	Modello sentence-transformers
`num_clusters`	intero	`10`	Numero di cluster (quando `auto_clusters=false`)
`items_per_cluster`	intero	`20`	Dimensione target del cluster (quando `auto_clusters=true`)
`auto_clusters`	booleano	`true`	Calcola automaticamente il numero di cluster
`prefill_count`	intero	`100`	Elementi da incorporare all'avvio
`batch_size`	intero	`32`	Dimensione del batch per il calcolo degli embedding
`recluster_threshold`	float	`1.0`	Frazione dei cluster da campionare prima del re-clustering
`preserve_visited`	booleano	`true`	Mantieni gli elementi visitati/saltati al loro posto
`trigger_ai_prefetch`	booleano	`true`	Attiva la cache AI dopo il riordinamento

Requisiti

bash

pip install sentence-transformers scikit-learn

Queste sono dipendenze opzionali. Senza di esse, la funzionalità verrà disabilitata con un avviso.

Prestazioni

Avvio: ~10 secondi per 100 elementi, ~30 secondi per 500 elementi (prima esecuzione; poi memorizzata nella cache)
Memoria: ~1,5 KB per elemento (all-MiniLM-L6-v2), ~15 MB per 10.000 elementi
Cache: Gli embedding vengono persisti su disco in .diversity_cache/

Interazione con Altre Funzionalità

Supporto AI: Quando trigger_ai_prefetch: true, i suggerimenti AI vengono precaricati automaticamente per gli elementi riordinati
Apprendimento Attivo: Può essere combinato iniziando con il clustering per diversità per la copertura iniziale, poi passando all'apprendimento attivo
Preservazione dell'Ordine: Quando preserve_visited: true, gli elementi visti in precedenza mantengono la loro posizione

Esempio Completo

yaml

annotation_task_name: "Diversity Ordering Test"
 
assignment_strategy: diversity_clustering
 
diversity_ordering:
  enabled: true
  model_name: "all-MiniLM-L6-v2"
  num_clusters: 5
  auto_clusters: false
  prefill_count: 100
  batch_size: 16
  recluster_threshold: 1.0
  preserve_visited: true
 
annotation_schemes:
  - annotation_type: radio
    name: topic
    description: "What is the main topic of this text?"
    labels:
      - name: Sports
      - name: Technology
      - name: Food
      - name: Travel
      - name: Health

Ulteriori Letture

Supporto AI - Suggerimenti di etichette AI
Apprendimento Attivo - Prioritizzazione delle istanze basata su ML
Evidenziazione delle Opzioni - Guida alle opzioni assistita da AI

Per i dettagli di implementazione, consulta la documentazione sorgente.