Documenti full-text disponibili:
![[thumbnail of Thesis]](https://amslaurea.unibo.it/style/images/fileicons/application_pdf.png) |
Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (5MB)
|
Abstract
Questa tesi studia, implementa e confronta tre modelli generativi di immagini: un Denoising Diffusion Probabilistic Model (DDPM), un Variational Autoencoder (VAE) e un’architettura ibrida, DiffuseVAE, in cui la ricostruzione del VAE guida il denoising del DDPM.
Le reti sono sviluppate in PyTorch con UNet dotata di time embedding sinusoidale, attenzione multi-head e scheduler del rumore lineare/coseno; la scelta degli iperparametri è supportata da Optuna.
La valutazione su MNIST e Fashion-MNIST adotta metriche sia pixel-wise (MSE, MAE, PSNR) sia percettive/strutturali (SSIM, LPIPS, Edge Similarity, Histogram Similarity), così da misurare accuratezza numerica e la qualità visiva.
I risultati evidenziano che DiffuseVAE migliora coerenza strutturale e qualità percepita (SSIM ed EdgeSim superiori) rispetto al VAE, a fronte di un lieve peggioramento degli errori medi per pixel (MSE/PSNR), confermando la complementarità tra spazio latente compatto e raffinamento progressivo tramite diffusione.
L’addestramento è stato eseguito sul cluster GPU del Dipartimento del DISI di Bologna (RTX 2080 Ti e L40); il campionamento DDPM resta più oneroso, ma è mitigato da scelte architetturali e di scheduling. Nel complesso, l’approccio ibrido si configura come soluzione modulare ed efficace per coniugare interpretabilità, stabilità di training e alta fedeltà visiva, aprendo a estensioni con condizionamenti avanzati e sampler più rapidi.
Abstract
Questa tesi studia, implementa e confronta tre modelli generativi di immagini: un Denoising Diffusion Probabilistic Model (DDPM), un Variational Autoencoder (VAE) e un’architettura ibrida, DiffuseVAE, in cui la ricostruzione del VAE guida il denoising del DDPM.
Le reti sono sviluppate in PyTorch con UNet dotata di time embedding sinusoidale, attenzione multi-head e scheduler del rumore lineare/coseno; la scelta degli iperparametri è supportata da Optuna.
La valutazione su MNIST e Fashion-MNIST adotta metriche sia pixel-wise (MSE, MAE, PSNR) sia percettive/strutturali (SSIM, LPIPS, Edge Similarity, Histogram Similarity), così da misurare accuratezza numerica e la qualità visiva.
I risultati evidenziano che DiffuseVAE migliora coerenza strutturale e qualità percepita (SSIM ed EdgeSim superiori) rispetto al VAE, a fronte di un lieve peggioramento degli errori medi per pixel (MSE/PSNR), confermando la complementarità tra spazio latente compatto e raffinamento progressivo tramite diffusione.
L’addestramento è stato eseguito sul cluster GPU del Dipartimento del DISI di Bologna (RTX 2080 Ti e L40); il campionamento DDPM resta più oneroso, ma è mitigato da scelte architetturali e di scheduling. Nel complesso, l’approccio ibrido si configura come soluzione modulare ed efficace per coniugare interpretabilità, stabilità di training e alta fedeltà visiva, aprendo a estensioni con condizionamenti avanzati e sampler più rapidi.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Shimaj, Kevin
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
AI generativa,immagini,ddpm,vae,diffuseVAE,autoencoder,GAN
Data di discussione della Tesi
2 Ottobre 2025
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Shimaj, Kevin
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
AI generativa,immagini,ddpm,vae,diffuseVAE,autoencoder,GAN
Data di discussione della Tesi
2 Ottobre 2025
URI
Statistica sui download
Gestione del documento: