CNN-transformer hybrid real-time MVDR speech enhancement on microcontroller

Piscione, Leonardo (2026) CNN-transformer hybrid real-time MVDR speech enhancement on microcontroller. [Laurea magistrale], Università di Bologna, Corso di Studio in Ingegneria elettronica [LM-DM270], Documento full-text non disponibile

Salva citazione

Il full-text non è disponibile per scelta dell'autore. (Contatta l'autore)

Abstract

Questo lavoro di tesi affronta l'integrazione e l'ottimizzazione di un modulo basato su un transformer all'interno della pipeline di speech enhancement multicanale MuDv4, il sistema di partenza combina una rete neurale convoluzionale per la stima delle maschere spettrali con un beamformer Minimum Variance Distortionless Response (MVDR), utilizzato per migliorare il segnale vocale in presenza di rumore e riverbero. In questo lavoro il Transformer viene introdotto come modulo di raffinamento dei coefficienti del beamformer nel dominio tempo-frequenza, sfruttando il meccanismo di self-attention per tener conto di dipendenze globali tra frequenze, istanti temporali e canali mirofonici. Il modello è stato inizialmente progettato e addestrato in ambiente Pytorch utilizzando dataset multicanale simulati, mostrando un miglioramento significativo delle prestazioni in termini di intellegibilità del parlato (STOI). Successivamente, il modulo è stato preparato per il deployment su piattaforma embedded GAP9 tramite la conversione del modello in formato ONNX e l'utilizzo della toolchain NNTool e Autotiler per la generazione del codice C. L'analisi delle prestazioni ha evidenziato che il codice generato automaticamente non era sufficiente a rispettare il vincolo di esecuzione real-time imposto dall'applicazione. Per questo motivo è stata condotta una fase di ottimizzazione manuale del codice, concentrata principalmente sul kernel di Multi-Head Self-Attention, responsabile della maggior parte del carico computazionale. Attraverso la riorganizzazione delle operazioni di attenzioni, degli accessi in memoria e l'utilizzo di tecniche di vettorizzazione, tiling e loop unrolling, è stato possibile ridurre significativamente il numero di cicli di esecuzione. I risultati ottenuti dimostrano che il sistema ottimizzato è in grado di sodisfare il vincolo temporale dei 5 ms richiesto per l'elaborazione in tempo reale su piattaforma embedded.

Abstract

Tipologia del documento

Tesi di laurea (Laurea magistrale)

Autore della tesi

Piscione, Leonardo

Relatore della tesi

Conti, Francesco

Correlatore della tesi

Bompani, Luca

Scuola

Ingegneria e Architettura

Corso di studio