Applicazione di Algoritmi di Deep Learning alla Speech Emotion Recognition

Bracchi, Luca (2023) Applicazione di Algoritmi di Deep Learning alla Speech Emotion Recognition. [Laurea magistrale], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [LM-DM270] - Cesena

Salva citazione

Documenti full-text disponibili:

Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (477kB)

Abstract

Il presente volume di tesi ha lo scopo di esporre i risultati del lavoro di ricerca svolto sulla Speech Emotion Recognition. Il problema è una specializzazione della Emotion Recognition su dati audio, ovvero riguarda l'identificazione delle emozioni espresse nelle tracce audio in esame ed è un compito che risulta di una complessità elevata sia per gli esseri umani sia per i sistemi automatici. Il grado di complessità è dovuto principalmente al fatto che soggetti differenti possono percepire emozioni diverse nella stessa traccia, mentre per quel che riguarda i sistemi automatici, che impiegano cioè il Machine Learning o il Deep Learning per effettuare la classificazione dei dati, le difficoltà hanno molteplici fonti differenti, descritte nel corso del documento. Nel lavoro in esame la SER è stata affrontata impiegando quelle che ad oggi sono le più note tecniche di Deep Learning per la classificazione multi classe. Il campo di ricerca appena citato è una sotto branca del Machine Learning con il quale condivide la caratteristica principale di utilizzare algoritmi in grado di apprendere e di migliorare in autonomia. Tali algoritmi fanno uso di modelli profondi e più o meno complessi per etichettare i dati, rappresentati da un insieme di informazioni ritenute indicative rispetto alla classe di appartenenza della traccia audio. La profondità dei modelli è data dal numero di livelli interni della rete, che sono in numero superiore all'unità. Lo scopo del lavoro è quello di valutare le principali tecnologie e metodologie nell'ambito del Deep Learning applicate al problema citato poc'anzi e per fare ciò sono stati allenati diversi modelli profondi tra reti ricorrenti, convoluzionali e multi classificatori, adottando diverse tecniche per evitare i problemi classici nell'ambito del addestramento delle reti profonde, effettuando poi un'analisi dei dati raccolti riguardanti le prestazioni di tali modelli nella classificazione del dataset usato per l'allenamento.

Abstract

Tipologia del documento

Tesi di laurea (Laurea magistrale)

Autore della tesi

Bracchi, Luca

Relatore della tesi

Delnevo, Giovanni

Scuola

Ingegneria e Architettura

Corso di studio

Ingegneria e scienze informatiche [LM-DM270] - Cesena

Ordinamento Cds

DM270

Parole chiave

Speech Emotion Recognition,Deep Learning,Recurrent Neural Network,LSTM,RNN,CNN,Convolutional Neural Network,RAVDESS,Speech Emotion Detection,Emotion Detection,Emotion Recognition,SER

Data di discussione della Tesi

20 Luglio 2023

URI

https://amslaurea.unibo.it/id/eprint/29314

Altri metadati

Statistica sui download

Vedi altre statistiche

Gestione del documento:

Strumenti di navigazione

Collezioni AlmaDL

Applicazione di Algoritmi di Deep Learning alla Speech Emotion Recognition

Abstract

Altri metadati

Statistica sui download