Dati sintetici come alternativa all'uso di dati personali: cosa sono, come si generano, come si valutano

Ferri, Samuele (2025) Dati sintetici come alternativa all'uso di dati personali: cosa sono, come si generano, come si valutano. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena, Documento ad accesso riservato.
Documenti full-text disponibili:
[thumbnail of Thesis] Documento PDF (Thesis)
Full-text accessibile solo agli utenti istituzionali dell'Ateneo
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato

Download (225kB) | Contatta l'autore

Abstract

Questa tesi fornisce una panoramica completa sui dati sintetici, rispondendo a tre domande fondamentali: cosa sono, come si generano e come si valutano. Il lavoro inizia definendo i dati sintetici come dati artificiali che emulano le proprietà statistiche di un dataset reale senza corrispondenze dirette con individui. Successivamente, vengono analizzate le principali metodologie di generazione: dagli approcci statistici classici (es. reti Bayesiane), ai metodi basati sulla simulazione (es. CGI per la computer vision), fino ai moderni modelli generativi di deep learning, come GAN e VAE. Un'attenzione centrale è dedicata al processo di valutazione, articolato sul "trilemma" di Fidelity (somiglianza statistica), Utility (efficacia pratica per compiti specifici) e Privacy. Viene introdotta la Differential Privacy come standard formale per la protezione dei dati. Inoltre si esplorano i principali ambiti applicativi, tra cui la sanità (protezione dei dati dei pazienti, malattie rare), i sistemi autonomi (addestramento alla guida autonoma), la finanza e la mitigazione dei bias (Fairness). Infine, la tesi affronta le sfide aperte, come il "reality gap" (il divario tra dati sintetici e reali) e il rischio emergente del "model collapse".

Abstract
Tipologia del documento
Tesi di laurea (Laurea)
Autore della tesi
Ferri, Samuele
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Dati Sintetici,Dati Personali,Privacy,GDPR,Generazione,Valutazione,Dati Anonimizzati,Data Augmentation,Classificazione,Modelli Statistici,Reti Bayesiane,Simulazione,Computer Grafica,Computer Vision,Agent-Based Modeling,ABM,Deep Learning,Modelli Generativi,GAN,VAE,Trilemma,Fidelity,Utility,TSTR,Machine Learning,Attacchi Privacy,Membership Inference,Attribute Inference,Differential Privacy,DP,Sanità,Ricerca Medica,EHR,Sistemi Autonomi,Guida Autonoma,Robotica,Sim-to-Real,Finanza,Scienze Sociali,Fairness,Equità,Bias,Mitigazione Bias,Reality Gap,Domain Adaptation,Model Collapse
Data di discussione della Tesi
27 Novembre 2025
URI

Altri metadati

Statistica sui download

Gestione del documento: Visualizza il documento

^