Pallotti, Davide
(2018)
Integrazione di dati di disparità sparsi in algoritmi per la visione stereo basati su deep-learning.
[Laurea magistrale], Università di Bologna, Corso di Studio in
Ingegneria informatica [LM-DM270]
Documenti full-text disponibili:
|
Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (5MB)
|
Abstract
La visione stereo consiste nell’estrarre informazioni di profondità da una scena a partire da una vista sinistra e una vista destra. Il problema si riduce a determinare punti corrispondenti nelle due immagini, che nel caso di immagini rettificate risultano traslati solo orizzontalmente, di una distanza detta disparità.
Tra gli algoritmi stereo tradizionali spiccano SGM e la sua implementazione rSGM. SGM minimizza una funzione di costo definita su un volume dei costi, che misura la somiglianza degli intorni di potenziali punti omologhi per numerosi valori di disparità.
L’abilità delle reti neurali convoluzionali (CNN) nello svolgere attività di percezione ha rivoluzionato l’approccio alla visione stereo. Un esempio di CNN stereo è GC-Net, adatta alla sperimentazione dato il numero contenuto di parametri. Anche GC-Net produce la mappa di disparità a partire da un volume dei costi, ottenuto combinando feature estratte dalle due viste.
Obiettivo di questa tesi è integrare in un algoritmo stereo dati di disparità sparsi suggeriti dall’esterno, con l’intento di migliorare l’accuratezza. L’idea proposta è di utilizzare i dati noti associati a punti sparsi per modulare i valori corrispondenti a quegli stessi punti nel volume dei costi.
Inizialmente sperimenteremo questo approccio su GC-Net. Dapprima faremo uso di disparità estratte casualmente dalla ground truth: ciò permetterà di verificare la bontà del metodo e simulerà l’impiego di un sensore di profondità a bassa risoluzione. Dopodiché impiegheremo gli output di SGM e rSGM, ancora campionati casualmente, chiedendoci se ciò risulti già in un primo miglioramento rispetto alla sola GC-Net.
In seguito saggeremo l’applicabilità di questo stesso metodo a un algoritmo tradizionale, rSGM, utilizzando soltanto la ground truth come fonte di disparità.
Infine riprenderemo l’idea di fornire a GC-Net l’aiuto di rSGM, ma sceglieremo solo i punti più promettenti rispetto a una misura di confidenza calcolata con la rete neurale CCNN.
Abstract
La visione stereo consiste nell’estrarre informazioni di profondità da una scena a partire da una vista sinistra e una vista destra. Il problema si riduce a determinare punti corrispondenti nelle due immagini, che nel caso di immagini rettificate risultano traslati solo orizzontalmente, di una distanza detta disparità.
Tra gli algoritmi stereo tradizionali spiccano SGM e la sua implementazione rSGM. SGM minimizza una funzione di costo definita su un volume dei costi, che misura la somiglianza degli intorni di potenziali punti omologhi per numerosi valori di disparità.
L’abilità delle reti neurali convoluzionali (CNN) nello svolgere attività di percezione ha rivoluzionato l’approccio alla visione stereo. Un esempio di CNN stereo è GC-Net, adatta alla sperimentazione dato il numero contenuto di parametri. Anche GC-Net produce la mappa di disparità a partire da un volume dei costi, ottenuto combinando feature estratte dalle due viste.
Obiettivo di questa tesi è integrare in un algoritmo stereo dati di disparità sparsi suggeriti dall’esterno, con l’intento di migliorare l’accuratezza. L’idea proposta è di utilizzare i dati noti associati a punti sparsi per modulare i valori corrispondenti a quegli stessi punti nel volume dei costi.
Inizialmente sperimenteremo questo approccio su GC-Net. Dapprima faremo uso di disparità estratte casualmente dalla ground truth: ciò permetterà di verificare la bontà del metodo e simulerà l’impiego di un sensore di profondità a bassa risoluzione. Dopodiché impiegheremo gli output di SGM e rSGM, ancora campionati casualmente, chiedendoci se ciò risulti già in un primo miglioramento rispetto alla sola GC-Net.
In seguito saggeremo l’applicabilità di questo stesso metodo a un algoritmo tradizionale, rSGM, utilizzando soltanto la ground truth come fonte di disparità.
Infine riprenderemo l’idea di fornire a GC-Net l’aiuto di rSGM, ma sceglieremo solo i punti più promettenti rispetto a una misura di confidenza calcolata con la rete neurale CCNN.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Pallotti, Davide
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Intelligenza artificiale,Reti neurali convoluzionali,CNN,Deep learning,Visione stereo,Disparità,GC-Net,SGM,rSGM,CCNN,TensorFlow
Data di discussione della Tesi
5 Ottobre 2018
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Pallotti, Davide
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Intelligenza artificiale,Reti neurali convoluzionali,CNN,Deep learning,Visione stereo,Disparità,GC-Net,SGM,rSGM,CCNN,TensorFlow
Data di discussione della Tesi
5 Ottobre 2018
URI
Statistica sui download
Gestione del documento: