CNN-transformer hybrid real-time MVDR speech enhancement on microcontroller

Piscione, Leonardo (2026) CNN-transformer hybrid real-time MVDR speech enhancement on microcontroller. [Laurea magistrale], Università di Bologna, Corso di Studio in Ingegneria elettronica [LM-DM270], Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore. (Contatta l'autore)

Abstract

Questo lavoro di tesi affronta l'integrazione e l'ottimizzazione di un modulo basato su un transformer all'interno della pipeline di speech enhancement multicanale MuDv4, il sistema di partenza combina una rete neurale convoluzionale per la stima delle maschere spettrali con un beamformer Minimum Variance Distortionless Response (MVDR), utilizzato per migliorare il segnale vocale in presenza di rumore e riverbero. In questo lavoro il Transformer viene introdotto come modulo di raffinamento dei coefficienti del beamformer nel dominio tempo-frequenza, sfruttando il meccanismo di self-attention per tener conto di dipendenze globali tra frequenze, istanti temporali e canali mirofonici. Il modello è stato inizialmente progettato e addestrato in ambiente Pytorch utilizzando dataset multicanale simulati, mostrando un miglioramento significativo delle prestazioni in termini di intellegibilità del parlato (STOI). Successivamente, il modulo è stato preparato per il deployment su piattaforma embedded GAP9 tramite la conversione del modello in formato ONNX e l'utilizzo della toolchain NNTool e Autotiler per la generazione del codice C. L'analisi delle prestazioni ha evidenziato che il codice generato automaticamente non era sufficiente a rispettare il vincolo di esecuzione real-time imposto dall'applicazione. Per questo motivo è stata condotta una fase di ottimizzazione manuale del codice, concentrata principalmente sul kernel di Multi-Head Self-Attention, responsabile della maggior parte del carico computazionale. Attraverso la riorganizzazione delle operazioni di attenzioni, degli accessi in memoria e l'utilizzo di tecniche di vettorizzazione, tiling e loop unrolling, è stato possibile ridurre significativamente il numero di cicli di esecuzione. I risultati ottenuti dimostrano che il sistema ottimizzato è in grado di sodisfare il vincolo temporale dei 5 ms richiesto per l'elaborazione in tempo reale su piattaforma embedded.

Abstract
Tipologia del documento
Tesi di laurea (Laurea magistrale)
Autore della tesi
Piscione, Leonardo
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Indirizzo
INGEGNERIA ELETTRONICA
Ordinamento Cds
DM270
Parole chiave
Transformer, Beamforming, MVDR, Attention, GAP9, Deployment, MuDv4, NNTool, Autotiler, ONNX, Tiling, unrolling, Fused MHSA, Speech Enhancement
Data di discussione della Tesi
25 Marzo 2026
URI

Altri metadati

Gestione del documento: Visualizza il documento

^