Applicazione di Algoritmi di Deep Learning alla Speech Emotion Recognition

Bracchi, Luca (2023) Applicazione di Algoritmi di Deep Learning alla Speech Emotion Recognition. [Laurea magistrale], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [LM-DM270] - Cesena
Documenti full-text disponibili:
[img] Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato

Download (477kB)

Abstract

Il presente volume di tesi ha lo scopo di esporre i risultati del lavoro di ricerca svolto sulla Speech Emotion Recognition. Il problema è una specializzazione della Emotion Recognition su dati audio, ovvero riguarda l'identificazione delle emozioni espresse nelle tracce audio in esame ed è un compito che risulta di una complessità elevata sia per gli esseri umani sia per i sistemi automatici. Il grado di complessità è dovuto principalmente al fatto che soggetti differenti possono percepire emozioni diverse nella stessa traccia, mentre per quel che riguarda i sistemi automatici, che impiegano cioè il Machine Learning o il Deep Learning per effettuare la classificazione dei dati, le difficoltà hanno molteplici fonti differenti, descritte nel corso del documento. Nel lavoro in esame la SER è stata affrontata impiegando quelle che ad oggi sono le più note tecniche di Deep Learning per la classificazione multi classe. Il campo di ricerca appena citato è una sotto branca del Machine Learning con il quale condivide la caratteristica principale di utilizzare algoritmi in grado di apprendere e di migliorare in autonomia. Tali algoritmi fanno uso di modelli profondi e più o meno complessi per etichettare i dati, rappresentati da un insieme di informazioni ritenute indicative rispetto alla classe di appartenenza della traccia audio. La profondità dei modelli è data dal numero di livelli interni della rete, che sono in numero superiore all'unità. Lo scopo del lavoro è quello di valutare le principali tecnologie e metodologie nell'ambito del Deep Learning applicate al problema citato poc'anzi e per fare ciò sono stati allenati diversi modelli profondi tra reti ricorrenti, convoluzionali e multi classificatori, adottando diverse tecniche per evitare i problemi classici nell'ambito del addestramento delle reti profonde, effettuando poi un'analisi dei dati raccolti riguardanti le prestazioni di tali modelli nella classificazione del dataset usato per l'allenamento.

Abstract
Tipologia del documento
Tesi di laurea (Laurea magistrale)
Autore della tesi
Bracchi, Luca
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Speech Emotion Recognition,Deep Learning,Recurrent Neural Network,LSTM,RNN,CNN,Convolutional Neural Network,RAVDESS,Speech Emotion Detection,Emotion Detection,Emotion Recognition,SER
Data di discussione della Tesi
20 Luglio 2023
URI

Altri metadati

Statistica sui download

Gestione del documento: Visualizza il documento

^