Integrating a Tensor Datapath into a Small and Efficient Vector Processor

Di Giampietro, Aurora (2024) Integrating a Tensor Datapath into a Small and Efficient Vector Processor. [Laurea magistrale], Università di Bologna, Corso di Studio in Ingegneria elettronica [LM-DM270], Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore. (Contatta l'autore)

Abstract

Questo studio si focalizza sull’ottimizzazione del processore vettoriale Spatz basato su RISC-V, tramite l’integrazione dell’acceleratore tensoriale RedMulE, progettato per formati low-precision floating-point (FP16). Sono state esaminate due modalità di integrazione di RedMulE: come acceleratore hardware collegato alla TCDM dello Spatz cluster (L1-coupled), e collegato al VRF del core vettoriale (VRF-coupled), integrato quindi all’interno di Spatz stesso. La seconda soluzione consente una cooperazione più stretta tra il processore vettoriale e l’acceleratore ed è stata adottata per il tapeout del chip Maestro. La versione VRF-coupled di RedMulE ha portato a vantaggi in termini di area e prestazioni, senza compromettere le performance del sistema. A livello microarchitetturale, la riduzione del buffer X ha comportato una diminuzione del 6% dell’area occupata da RedMulE. A livello macroarchitetturale, la rimozione delle porte verso la TCDM di RedMulE ha semplificato l’intera interconnect, portando ad una riduzione di circa 170 kGE nell’area complessiva del cluster. Sul fronte delle prestazioni, il collegamento di RedMulE con il VRF ha consentito un miglior sfruttamento della località dei dati, poiché Spatz e RedMulE condividono il VRF e possono comunicare direttamente, evitando di passare attraverso la TCDM. Ciò ha eliminato un livello di movimento dei dati, riducendo le inefficienze temporali ed energetiche. RedMulE, essendo un’architettura specializzata unicamente in calcolo matriciale, ha migliorato l’efficienza energetica dello Spatz cluster durante le moltiplicazioni di matrici FP16. La potenza consumata per l’operazione è aumentata di un fattore di circa 2x ma con uno speedup di 3x. Questo speedup è analogo a quello ottenuto con la versione L1-coupled di RedMulE, confermando che RedMulE VRF-coupled ha portato a miglioramenti senza compromettere le prestazioni del sistema.

Abstract
Tipologia del documento
Tesi di laurea (Laurea magistrale)
Autore della tesi
Di Giampietro, Aurora
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Indirizzo
INGEGNERIA ELETTRONICA
Ordinamento Cds
DM270
Parole chiave
vector core,tensor processor unit,hardware accelerator,tape-out
Data di discussione della Tesi
1 Febbraio 2024
URI

Altri metadati

Gestione del documento: Visualizza il documento

^