Elaborazione audio dei Segnali con reti neurali profonde per la rilevazione di situazioni di pericolo

Perugini, Enrico (2021) Elaborazione audio dei Segnali con reti neurali profonde per la rilevazione di situazioni di pericolo. [Laurea magistrale], Università di Bologna, Corso di Studio in Ingegneria elettronica [LM-DM270]

Salva citazione

Documenti full-text disponibili:

Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (3MB)

Abstract

Nei sistemi di sorveglianza moderni, soluzioni composte dall’unione di telecamere a circuito chiuso e tecniche di intelligenza artificiale, rappresentano lo strumento principale per fronteggiare minacce e pericoli in diversi ambienti: ambienti pubblici, abitazioni private, uffici, strutture critiche come ospedali o scuole. Questi sistemi vengono equipaggiati da robuste tecniche di computer vision, le quali permettono di riconoscere e rilevare oggetti e persone, attraverso sequenze di immagini in maniera automatica. L’obiettivo è predire l’azione degli elementi osservati in un determinato scenario per aumentare l’efficienza globale di un sistema di sorveglianza. Tuttavia, l’analisi delle immagini può subire importanti cali di prestazioni in diverse circostanze, dovuti alla natura dei sensori video e dalle limitazioni che essi introducono. Nel progetto di tesi presentato, si discute lo sviluppo di un sistema di riconoscimento di situazioni di pericolo i cui dati elaborati sono acquisiti da sensori audio. Negli ultimi anni, la sorveglianza audio ha riscosso un grande interesse grazie alla flessibilità di utilizzo, sia per la diversità delle situazioni in cui può essere impiegata, sia per la possibilità di essere combinata con la controparte video in sistemi ibridi. Il sistema proposto è costituito da una rete neurale convoluzionale, la cui architettura si ispira fortemente alla VGG19. Al suo ingresso vengono fornite immagini costruite a partire da porzioni di stream audio e trasformate in rappresentazioni tempo-frequenza quali: spettrogramma, spettrogramma in scala Mel e gammatonogramma. L’obiettivo è stato quello di costruire un modello di classificazione di eventi audio di pericolo, per i quali si sono considerati suoni come: vetri che si infrangono, colpi di pistola e urla. Successivamente si è condotto un confronto sia tra le performance indotte dall’utilizzo delle tre rappresentazioni, sia tra la rete neurale e una tecnica di classificazione standard quale l’SVM

Abstract

Tipologia del documento

Tesi di laurea (Laurea magistrale)

Autore della tesi

Perugini, Enrico

Relatore della tesi

Rovatti, Riccardo

Correlatore della tesi

Mangia, Mauro ; Guidotti, Alessandro ; Marchioni, Alex

Scuola

Ingegneria e Architettura

Corso di studio