|
Documento PDF (Thesis)
Full-text accessibile solo agli utenti istituzionali dell'Ateneo Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato Download (225kB) | Contatta l'autore |
Abstract
Questa tesi fornisce una panoramica completa sui dati sintetici, rispondendo a tre domande fondamentali: cosa sono, come si generano e come si valutano. Il lavoro inizia definendo i dati sintetici come dati artificiali che emulano le proprietà statistiche di un dataset reale senza corrispondenze dirette con individui. Successivamente, vengono analizzate le principali metodologie di generazione: dagli approcci statistici classici (es. reti Bayesiane), ai metodi basati sulla simulazione (es. CGI per la computer vision), fino ai moderni modelli generativi di deep learning, come GAN e VAE. Un'attenzione centrale è dedicata al processo di valutazione, articolato sul "trilemma" di Fidelity (somiglianza statistica), Utility (efficacia pratica per compiti specifici) e Privacy. Viene introdotta la Differential Privacy come standard formale per la protezione dei dati. Inoltre si esplorano i principali ambiti applicativi, tra cui la sanità (protezione dei dati dei pazienti, malattie rare), i sistemi autonomi (addestramento alla guida autonoma), la finanza e la mitigazione dei bias (Fairness). Infine, la tesi affronta le sfide aperte, come il "reality gap" (il divario tra dati sintetici e reali) e il rischio emergente del "model collapse".

Login