Cette page n'est pas encore disponible dans votre langue. La version anglaise est affichée.
Ordinamento per Diversità
Diversificazione degli elementi basata su embedding per massimizzare la varietà delle annotazioni.
Ordinamento per Diversità
L'ordinamento per diversità usa embedding sentence-transformer per raggruppare gli elementi simili, poi campiona gli elementi in modo round-robin da cluster diversi. Questo garantisce che gli annotatori vedano contenuti diversificati piuttosto che elementi simili in sequenza.
Vantaggi
- Riduce l'affaticamento degli annotatori da contenuti ripetitivi
- Migliora la qualità delle annotazioni attraverso contesti variati
- Copertura più rapida dell'intero spazio degli argomenti
Avvio Rapido
yaml
assignment_strategy: diversity_clustering
diversity_ordering:
enabled: true
prefill_count: 100Come Funziona
- Avvio: I primi N elementi vengono incorporati usando sentence-transformers e raggruppati con k-means
- Assegnazione: Gli elementi vengono campionati round-robin dai cluster, garantendo varietà
- Annotazione: I nuovi elementi vengono incorporati in modo asincrono man mano che vengono annotati
- Re-clustering: Quando un utente ha campionato da tutti i cluster, il sistema effettua nuovamente il clustering
Configurazione
yaml
diversity_ordering:
enabled: true
# Modello sentence-transformer
model_name: "all-MiniLM-L6-v2"
# Parametri di clustering
num_clusters: 10
items_per_cluster: 20
auto_clusters: true # Calcola automaticamente in base alla dimensione dei dati
# Pre-compilazione all'avvio
prefill_count: 100
batch_size: 32
# Comportamento di re-clustering
recluster_threshold: 1.0 # Ri-clustera quando tutti i cluster sono stati campionati
# Preservazione dell'ordine
preserve_visited: true
# Integrazione AI
trigger_ai_prefetch: trueRiferimento alla Configurazione
| Opzione | Tipo | Predefinito | Descrizione |
|---|---|---|---|
enabled | booleano | false | Abilita l'ordinamento per diversità |
model_name | stringa | "all-MiniLM-L6-v2" | Modello sentence-transformers |
num_clusters | intero | 10 | Numero di cluster (quando auto_clusters=false) |
items_per_cluster | intero | 20 | Dimensione target del cluster (quando auto_clusters=true) |
auto_clusters | booleano | true | Calcola automaticamente il numero di cluster |
prefill_count | intero | 100 | Elementi da incorporare all'avvio |
batch_size | intero | 32 | Dimensione del batch per il calcolo degli embedding |
recluster_threshold | float | 1.0 | Frazione dei cluster da campionare prima del re-clustering |
preserve_visited | booleano | true | Mantieni gli elementi visitati/saltati al loro posto |
trigger_ai_prefetch | booleano | true | Attiva la cache AI dopo il riordinamento |
Requisiti
bash
pip install sentence-transformers scikit-learnQueste sono dipendenze opzionali. Senza di esse, la funzionalità verrà disabilitata con un avviso.
Prestazioni
- Avvio: ~10 secondi per 100 elementi, ~30 secondi per 500 elementi (prima esecuzione; poi memorizzata nella cache)
- Memoria: ~1,5 KB per elemento (all-MiniLM-L6-v2), ~15 MB per 10.000 elementi
- Cache: Gli embedding vengono persisti su disco in
.diversity_cache/
Interazione con Altre Funzionalità
- Supporto AI: Quando
trigger_ai_prefetch: true, i suggerimenti AI vengono precaricati automaticamente per gli elementi riordinati - Apprendimento Attivo: Può essere combinato iniziando con il clustering per diversità per la copertura iniziale, poi passando all'apprendimento attivo
- Preservazione dell'Ordine: Quando
preserve_visited: true, gli elementi visti in precedenza mantengono la loro posizione
Esempio Completo
yaml
annotation_task_name: "Diversity Ordering Test"
assignment_strategy: diversity_clustering
diversity_ordering:
enabled: true
model_name: "all-MiniLM-L6-v2"
num_clusters: 5
auto_clusters: false
prefill_count: 100
batch_size: 16
recluster_threshold: 1.0
preserve_visited: true
annotation_schemes:
- annotation_type: radio
name: topic
description: "What is the main topic of this text?"
labels:
- name: Sports
- name: Technology
- name: Food
- name: Travel
- name: HealthUlteriori Letture
- Supporto AI - Suggerimenti di etichette AI
- Apprendimento Attivo - Prioritizzazione delle istanze basata su ML
- Evidenziazione delle Opzioni - Guida alle opzioni assistita da AI
Per i dettagli di implementazione, consulta la documentazione sorgente.