Exploring Latent Embeddings in Diffusion Models for Face Orientation Conditioning

Guerra, Antonio (2023) Exploring Latent Embeddings in Diffusion Models for Face Orientation Conditioning. [Laurea magistrale], Università di Bologna, Corso di Studio in Artificial intelligence [LM-DM270]
Documenti full-text disponibili:
[img] Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato

Download (11MB)

Abstract

Facial rotation is a critical task in computer vision with numerous applications across various domains. Traditional facial rotation techniques, such as reconstruction-based and 3D geometry-based approaches, require ground truth data for training, which presents limitations. This thesis proposes two novel techniques for addressing the facial rotation problem without relying on pairs of images. These techniques leverage the latent space of a DDIM trained to reconstruct human faces and condition the generation process to produce rotated faces. A comprehensive overview of facial rotation techniques and Diffusion Models (DMs) is provided, along with the development, implementation, and evaluation of the newly proposed methods. The first method modifies specific input image pixels, while the second technique fits a linear regressor to sample from the latent space. The second method demonstrates better stability and simplicity, effectively producing rotations of up to ±30◦. Future research directions include using unbiased datasets with greater face orientation variation and improving the second method's computational efficiency.

Abstract
Tipologia del documento
Tesi di laurea (Laurea magistrale)
Autore della tesi
Guerra, Antonio
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Diffusion Model,Deep Learning,Computer Vision,Face generation,Conditional Generation,Face Rotation
Data di discussione della Tesi
20 Luglio 2023
URI

Altri metadati

Statistica sui download

Gestione del documento: Visualizza il documento

^