Mitigazione del Label Skew nel Federated Learning: Il Protocollo H²CFed basato su Quality Scoring, Adaptive Thresholding e Soft-Hysteresis

Bernaudo, Daniele (2026) Mitigazione del Label Skew nel Federated Learning: Il Protocollo H²CFed basato su Quality Scoring, Adaptive Thresholding e Soft-Hysteresis. [Laurea magistrale], Università di Bologna, Corso di Studio in Ingegneria informatica [LM-DM270], Documento ad accesso riservato.

Salva citazione

Documenti full-text disponibili:

Documento PDF (Thesis)
Full-text non accessibile fino al 30 Settembre 2026.
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (5MB) | Contatta l'autore

Abstract

L’efficacia del paradigma Federated Learning (FL) è intrinsecamente limitata dall’eterogeneità statistica dei dati distribuiti tra i partecipanti. Quando le distribuzioni locali delle classi divergono significativamente dalla distribuzione globale, condizione nota come Label Skew, gli algoritmi di aggregazione convenzionali producono modelli globali che eccellono sulle classi sovra-rappresentate ma dimenticano progressivamente quelle minoritarie. I metodi di aggregazione robusta proposti in letteratura affrontano il problema adottando logiche di esclusione binaria che, pur efficaci contro attacchi avversariali, penalizzano proprio i client che possiedono informazione sulle classi rare, aggravando il problema anziché risolverlo. In questa tesi viene introdotto H^2CFed (Hysteresis-based Hybrid Client Federated Learning), un framework di aggregazione ispirato all’Edge Detector di Canny che sostituisce il filtraggio binario con un meccanismo di tolleranza dinamica. Il framework partiziona i client in Anchor e Weak sulla base di un indice di qualità composito (entropia, dimensione, copertura), costruisce un vettore di riferimento completamente distribuito senza richiedere alcun dataset centralizzato sul server, e modula il contributo di ciascun client attraverso una soglia adattiva ibrida che integra informazione temporale, spaziale e statistica. Il meccanismo chiave è la Soft-Hysteresis: i contributi divergenti non vengono eliminati ma attenuati, preservando il segnale sulle classi rare senza destabilizzare la convergenza. La validazione sperimentale su CIFAR-10 con partizionamento Dirichlet (α = 0.5) dimostra che H2CFed-Hybrid migliora l’accuratezza di +5.44 punti percentuali (pp) rispetto a FedAvg nell’esperimento a 100 client e di +13.22 pp nell’esperimento a 50 client, superando anche FedProx e FedNova con overhead computazionale trascurabile.L’ablation study conferma che il meccanismo di recupero attenuato è il fattore determinante.

Abstract

Tipologia del documento

Tesi di laurea (Laurea magistrale)

Autore della tesi

Bernaudo, Daniele

Relatore della tesi

Poggi, Matteo

Scuola

Ingegneria e Architettura

Corso di studio

Ingegneria informatica [LM-DM270]

Indirizzo