Di Lella, Michele Francesco
(2017)
Stima della profondità da singola immagine per mezzo di una CNN addestrata mediante tecniche di computer graphics.
[Laurea magistrale], Università di Bologna, Corso di Studio in
Ingegneria informatica [LM-DM270]
Documenti full-text disponibili:
|
Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (3MB)
|
Abstract
In questa tesi viene affrontato il problema della stima della profondità di una scena. Esistono diverse soluzioni a questo problema, come le telecamere stereo, i sensori ad infrarossi, i sensori time-of-flight e i laser scanner 3D. Tutti questi strumenti permettono di stimare più o meno bene la profondità della scena, ma molto spesso sono poco pratici o difficili da utilizzare, e spesso presentano costi molto elevati, e per questi motivi non hanno mai trovato una vera diffusione in ambito commerciale, come invece è successo negli ultimi anni per i dispositivi mobile, come gli smartphone, che hanno portato parallelamente ad una grande diffusione delle normali telecamere a colori. Alla luce di questo, in questo lavoro di tesi viene proposta una soluzione basata sul machine learning che permette di sfruttare questi dispositivi stimando la profondità da singola immagine rgb, producendo risultati comparabili agli attuali algoritmi di stereo-vision. Viene proposto anche un nuovo dataset per l’addestramento ed il testing di reti neurali per la stima della profondità in ambito indoor, e nello specifico nello scenario dei supermercati.
Abstract
In questa tesi viene affrontato il problema della stima della profondità di una scena. Esistono diverse soluzioni a questo problema, come le telecamere stereo, i sensori ad infrarossi, i sensori time-of-flight e i laser scanner 3D. Tutti questi strumenti permettono di stimare più o meno bene la profondità della scena, ma molto spesso sono poco pratici o difficili da utilizzare, e spesso presentano costi molto elevati, e per questi motivi non hanno mai trovato una vera diffusione in ambito commerciale, come invece è successo negli ultimi anni per i dispositivi mobile, come gli smartphone, che hanno portato parallelamente ad una grande diffusione delle normali telecamere a colori. Alla luce di questo, in questo lavoro di tesi viene proposta una soluzione basata sul machine learning che permette di sfruttare questi dispositivi stimando la profondità da singola immagine rgb, producendo risultati comparabili agli attuali algoritmi di stereo-vision. Viene proposto anche un nuovo dataset per l’addestramento ed il testing di reti neurali per la stima della profondità in ambito indoor, e nello specifico nello scenario dei supermercati.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Di Lella, Michele Francesco
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Machine learning,depth prediction,Mappa di profondità,reti neurali,ResNet,reti neurali convoluzionali,CNN,computer graphics,TensorFlow,Blender
Data di discussione della Tesi
14 Marzo 2017
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Di Lella, Michele Francesco
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Machine learning,depth prediction,Mappa di profondità,reti neurali,ResNet,reti neurali convoluzionali,CNN,computer graphics,TensorFlow,Blender
Data di discussione della Tesi
14 Marzo 2017
URI
Statistica sui download
Gestione del documento: