Design of a Multi-Precision Floating-Point FFT Hardware Accelerator

Ghionda, Luigi (2024) Design of a Multi-Precision Floating-Point FFT Hardware Accelerator. [Laurea magistrale], Università di Bologna, Corso di Studio in Ingegneria elettronica [LM-DM270], Documento ad accesso riservato.

Salva citazione

Documenti full-text disponibili:

Documento PDF (Thesis)
Full-text accessibile solo agli utenti istituzionali dell'Ateneo
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (2MB) | Contatta l'autore

Abstract

La Fast Fourier Transform (FFT) rappresenta uno degli algoritmi più importanti dell’elaborazione numerica dei segnali (DSP), facendone il candidato ideale per la realizzazione di acceleratori hardware dedicati. Inoltre, alcune applicazioni, nel calcolo della FFT richiedono l’ampio range dinamico garantito dall’aritmetica floating-point. In questi casi, è necessario implementare architetture ottimizzate per minimizzare l’overhead di area, latenza e consumo di potenza associato alle operazioni floating-point. Questo lavoro di tesi affronta questo tema focalizzandosi sullo sviluppo di un acceleratore hardware floating-point multiformato per il calcolo della FFT, precedentemente realizzato in aritmetica fixed-point. Per ottenere un’elevata efficienza, l’operazione elementare della FFT, la cosiddetta “butterfly”, è implementata con un’operazione floating-point “fused” customizzata. In una tecnologia a 65 nm e con un periodo di clock di 5 ns si è ottenuta un’area di 89051 μm2 per una butterfly radix-2 FP32 e di 36693 μm2 per una butterfly radix-2 FP16. Con lo stesso vincolo di periodo di clock, l’intero acceleratore floating-point occupa un’area di circa 0.22 mm2. L’acceleratore realizzato è stato integrato all’interno del tapeout di Maestro, un chip di 12 mm2 realizzato in tecnologia 65 nm specializzato per applicazioni DSP. Il suo cluster, basato sul processore vettoriale compatto Spatz, ospita l’acceleratore FFT integrato in modo memory-coupled (HWPE). In questo sistema, eseguire una FFT single-precision a 512 punti sull’acceleratore richiede circa 13.3 μs e comporta un consumo di potenza medio stimato in circa 82.8 mW. Di questo valore, solamente 27.9 mW sono direttamente imputabili all’acceleratore. Per l’esecuzione dello stesso kernel FFT su Spatz, si stima un consumo energetico circa quattro volte superiore rispetto all’esecuzione sull’acceleratore, mostrando come questo sia competitivo anche rispetto ad un’architettura specializzata come un core vettoriale.

Abstract

Tipologia del documento

Tesi di laurea (Laurea magistrale)

Autore della tesi

Ghionda, Luigi

Relatore della tesi

Conti, Francesco

Correlatore della tesi

Rossi, Davide ; Bertaccini, Luca ; Sinigaglia, Mattia ; Tortorella, Yvan

Scuola

Ingegneria e Architettura

Corso di studio