Neural networks-based MVDR beamforming for real-time speech enhancement on an ultra-low power microcontroller

Oltrecolli, Giovanni (2025) Neural networks-based MVDR beamforming for real-time speech enhancement on an ultra-low power microcontroller. [Laurea magistrale], Università di Bologna, Corso di Studio in Ingegneria elettronica [LM-DM270], Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore. (Contatta l'autore)

Abstract

Questo lavoro di tesi si propone lo studio e l’ implementazione di un algoritmo di beamforming basato su reti neurali per il miglioramento in tempo reale del parlato su microcontrollori a bassissimo consumo, con particolare riferimento al GAP9 di GreenWaves Technologies. Inizialmente, viene condotta un’analisi dettagliata delle tecniche di miglioramento del segnale vocale, con particolare enfasi sugli approcci basati su array di microfoni, come il beamforming. Tra le diverse strategie disponibili, è stata selezionata la tecnica di beamforming adattivo Minimum Variance Distortionless Response (MVDR), che sfrutta le statistiche dei segnali acquisiti dai microfoni per calcolare i coefficienti di un filtro in grado di sopprimere il rumore di fondo e preservare il segnale vocale. Il modello adottato è MuDv4, una soluzione che integra una rete neurale convoluzionale per la stima delle maschere spettro-temporali di segnale e rumore, utilizzate per il calcolo delle matrici di covarianza necessarie alla stima dei coefficienti del filtro. Successivamente, il lavoro descrive il processo di addestramento del modello, illustrando le strategie adottate per ottimizzare il numero di parametri e garantire un’elevata efficienza computazionale, nonché la validazione dei risultati attraverso metriche quali SI-SNR e STOI. Infine, viene affrontata la fase di deployment del modello sul microcontrollore, descrivendo le procedure di esportazione in formato ONNX, la post-quantizzazione mista FP16-INT8, le tecniche di gestione ottimale della memoria e l’implementazione dell’algoritmo di inversione della matrice mediante LU decomposition. I risultati ottenuti confermano la fattibilità di implementazione di un sistema di speech enhancement in tempo reale, descritto nell’ultimo capitolo, dimostrando la capacità del modello di operare efficacemente in piattaforme a risorse limitate come GAP9.

Abstract
Tipologia del documento
Tesi di laurea (Laurea magistrale)
Autore della tesi
Oltrecolli, Giovanni
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Indirizzo
INGEGNERIA ELETTRONICA
Ordinamento Cds
DM270
Parole chiave
Speech enhancement, Beamforming, Minimum-Variance-Distortionless-Response, CNN, Neural-Networks, Real-Time, Ultra-Low-Power Microcontroller
Data di discussione della Tesi
24 Marzo 2025
URI

Altri metadati

Gestione del documento: Visualizza il documento

^