Bernaudo, Daniele
(2026)
Mitigazione del Label Skew nel Federated Learning: Il Protocollo H²CFed basato su Quality Scoring, Adaptive Thresholding e Soft-Hysteresis.
[Laurea magistrale], Università di Bologna, Corso di Studio in
Ingegneria informatica [LM-DM270], Documento ad accesso riservato.
Documenti full-text disponibili:
![[thumbnail of Thesis]](https://amslaurea.unibo.it/style/images/fileicons/application_pdf.png) |
Documento PDF (Thesis)
Full-text non accessibile fino al 30 Settembre 2026.
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (5MB)
| Contatta l'autore
|
Abstract
L’efficacia del paradigma Federated Learning (FL) è intrinsecamente limitata dall’eterogeneità statistica dei dati distribuiti tra i partecipanti. Quando le distribuzioni locali delle classi divergono significativamente dalla distribuzione globale, condizione nota come Label Skew, gli algoritmi di aggregazione convenzionali producono modelli globali che eccellono sulle classi sovra-rappresentate ma dimenticano progressivamente quelle minoritarie. I metodi di aggregazione robusta proposti in letteratura affrontano il problema adottando logiche di esclusione binaria che, pur efficaci contro attacchi avversariali, penalizzano proprio i client che possiedono informazione sulle classi rare, aggravando il problema anziché risolverlo.
In questa tesi viene introdotto H^2CFed (Hysteresis-based Hybrid Client Federated Learning), un framework di aggregazione ispirato all’Edge Detector di Canny che sostituisce il filtraggio binario con un meccanismo di tolleranza dinamica. Il framework partiziona i client in Anchor e Weak sulla base di un indice di qualità composito (entropia, dimensione, copertura), costruisce un vettore di riferimento completamente distribuito senza richiedere alcun dataset centralizzato sul server, e modula il contributo di ciascun client attraverso una soglia adattiva ibrida che integra informazione temporale, spaziale e statistica. Il meccanismo chiave è la Soft-Hysteresis: i contributi divergenti non vengono eliminati ma attenuati, preservando il segnale sulle classi rare senza destabilizzare la convergenza. La validazione sperimentale su CIFAR-10 con partizionamento Dirichlet (α = 0.5) dimostra che H2CFed-Hybrid migliora l’accuratezza di +5.44 punti percentuali (pp) rispetto a FedAvg nell’esperimento a 100 client e di +13.22 pp nell’esperimento a 50 client, superando anche FedProx e FedNova con overhead computazionale trascurabile.L’ablation study conferma che il meccanismo di recupero attenuato è il fattore determinante.
Abstract
L’efficacia del paradigma Federated Learning (FL) è intrinsecamente limitata dall’eterogeneità statistica dei dati distribuiti tra i partecipanti. Quando le distribuzioni locali delle classi divergono significativamente dalla distribuzione globale, condizione nota come Label Skew, gli algoritmi di aggregazione convenzionali producono modelli globali che eccellono sulle classi sovra-rappresentate ma dimenticano progressivamente quelle minoritarie. I metodi di aggregazione robusta proposti in letteratura affrontano il problema adottando logiche di esclusione binaria che, pur efficaci contro attacchi avversariali, penalizzano proprio i client che possiedono informazione sulle classi rare, aggravando il problema anziché risolverlo.
In questa tesi viene introdotto H^2CFed (Hysteresis-based Hybrid Client Federated Learning), un framework di aggregazione ispirato all’Edge Detector di Canny che sostituisce il filtraggio binario con un meccanismo di tolleranza dinamica. Il framework partiziona i client in Anchor e Weak sulla base di un indice di qualità composito (entropia, dimensione, copertura), costruisce un vettore di riferimento completamente distribuito senza richiedere alcun dataset centralizzato sul server, e modula il contributo di ciascun client attraverso una soglia adattiva ibrida che integra informazione temporale, spaziale e statistica. Il meccanismo chiave è la Soft-Hysteresis: i contributi divergenti non vengono eliminati ma attenuati, preservando il segnale sulle classi rare senza destabilizzare la convergenza. La validazione sperimentale su CIFAR-10 con partizionamento Dirichlet (α = 0.5) dimostra che H2CFed-Hybrid migliora l’accuratezza di +5.44 punti percentuali (pp) rispetto a FedAvg nell’esperimento a 100 client e di +13.22 pp nell’esperimento a 50 client, superando anche FedProx e FedNova con overhead computazionale trascurabile.L’ablation study conferma che il meccanismo di recupero attenuato è il fattore determinante.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Bernaudo, Daniele
Relatore della tesi
Scuola
Corso di studio
Indirizzo
CURRICULUM INGEGNERIA INFORMATICA
Ordinamento Cds
DM270
Parole chiave
Federated Learning, Label Skew, Soglia Adattiva, Soft-Hysteresis, Adaptive Thresholding, Robust Aggregation, Non-IID Data
Data di discussione della Tesi
26 Marzo 2026
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Bernaudo, Daniele
Relatore della tesi
Scuola
Corso di studio
Indirizzo
CURRICULUM INGEGNERIA INFORMATICA
Ordinamento Cds
DM270
Parole chiave
Federated Learning, Label Skew, Soglia Adattiva, Soft-Hysteresis, Adaptive Thresholding, Robust Aggregation, Non-IID Data
Data di discussione della Tesi
26 Marzo 2026
URI
Gestione del documento: