Sviluppo ed analisi di modelli generativi di immagini basati su diffusione e autoencoder variazionali

Shimaj, Kevin (2025) Sviluppo ed analisi di modelli generativi di immagini basati su diffusione e autoencoder variazionali. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena
Documenti full-text disponibili:
[thumbnail of Thesis] Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato

Download (5MB)

Abstract

Questa tesi studia, implementa e confronta tre modelli generativi di immagini: un Denoising Diffusion Probabilistic Model (DDPM), un Variational Autoencoder (VAE) e un’architettura ibrida, DiffuseVAE, in cui la ricostruzione del VAE guida il denoising del DDPM. Le reti sono sviluppate in PyTorch con UNet dotata di time embedding sinusoidale, attenzione multi-head e scheduler del rumore lineare/coseno; la scelta degli iperparametri è supportata da Optuna. La valutazione su MNIST e Fashion-MNIST adotta metriche sia pixel-wise (MSE, MAE, PSNR) sia percettive/strutturali (SSIM, LPIPS, Edge Similarity, Histogram Similarity), così da misurare accuratezza numerica e la qualità visiva. I risultati evidenziano che DiffuseVAE migliora coerenza strutturale e qualità percepita (SSIM ed EdgeSim superiori) rispetto al VAE, a fronte di un lieve peggioramento degli errori medi per pixel (MSE/PSNR), confermando la complementarità tra spazio latente compatto e raffinamento progressivo tramite diffusione. L’addestramento è stato eseguito sul cluster GPU del Dipartimento del DISI di Bologna (RTX 2080 Ti e L40); il campionamento DDPM resta più oneroso, ma è mitigato da scelte architetturali e di scheduling. Nel complesso, l’approccio ibrido si configura come soluzione modulare ed efficace per coniugare interpretabilità, stabilità di training e alta fedeltà visiva, aprendo a estensioni con condizionamenti avanzati e sampler più rapidi.

Abstract
Tipologia del documento
Tesi di laurea (Laurea)
Autore della tesi
Shimaj, Kevin
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
AI generativa,immagini,ddpm,vae,diffuseVAE,autoencoder,GAN
Data di discussione della Tesi
2 Ottobre 2025
URI

Altri metadati

Statistica sui download

Gestione del documento: Visualizza il documento

^