Musarella, Alessandro
(2023)
Generazione tramite deep-learning di mappe Bird-Eye-View da immagini multi-camera per applicazioni di guida autonoma.
[Laurea magistrale], Università di Bologna, Corso di Studio in
Ingegneria informatica [LM-DM270], Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore.
(
Contatta l'autore)
Abstract
L’obiettivo di questa tesi di laurea è quello di ottenere una rappresentazione Bird’s-Eye-View (BEV) semantica della strada e degli ostacoli intorno al veicolo a partire da telecamere monoculari mediante l'utilizzo di Deep Neural Network. Una tale rappresentazione dell’ambiente circostante è molto importante nell’ambito della guida autonoma, poiché è conveniente per compiti di pianificazione e controllo. Alla base di questo progetto è stata utilizzata l'architettura Lift-Splat proposta da Jonah Philion. Questo modello inizialmente "solleva" (lift) le singole immagini in uno spazio 3D generando una nuvola di punti a forma di frustrum, costituita di feature contestuali estrapolate dalle immagini. In seguito "schiaccia" (splat) tutti questi frustum insieme nel piano BEV di riferimento, utilizzando le matrici intrinseche ed estrinseche delle camere. Infine, una rete neurale convoluzionale elabora questi input per generare la segmentazione semantica BEV. Partendo da questa architettura, sono state sperimentate e analizzate modifiche quali: l'utilizzo di più ROI per ogni camera, l'introduzione di una loss intermedia basata sulla depth, e l'utilizzo di ulteriori reti neurali.
Abstract
L’obiettivo di questa tesi di laurea è quello di ottenere una rappresentazione Bird’s-Eye-View (BEV) semantica della strada e degli ostacoli intorno al veicolo a partire da telecamere monoculari mediante l'utilizzo di Deep Neural Network. Una tale rappresentazione dell’ambiente circostante è molto importante nell’ambito della guida autonoma, poiché è conveniente per compiti di pianificazione e controllo. Alla base di questo progetto è stata utilizzata l'architettura Lift-Splat proposta da Jonah Philion. Questo modello inizialmente "solleva" (lift) le singole immagini in uno spazio 3D generando una nuvola di punti a forma di frustrum, costituita di feature contestuali estrapolate dalle immagini. In seguito "schiaccia" (splat) tutti questi frustum insieme nel piano BEV di riferimento, utilizzando le matrici intrinseche ed estrinseche delle camere. Infine, una rete neurale convoluzionale elabora questi input per generare la segmentazione semantica BEV. Partendo da questa architettura, sono state sperimentate e analizzate modifiche quali: l'utilizzo di più ROI per ogni camera, l'introduzione di una loss intermedia basata sulla depth, e l'utilizzo di ulteriori reti neurali.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Musarella, Alessandro
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
computer vision,autonomous driving,deep learning
Data di discussione della Tesi
23 Marzo 2023
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Musarella, Alessandro
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
computer vision,autonomous driving,deep learning
Data di discussione della Tesi
23 Marzo 2023
URI
Gestione del documento: