Integration of a Vector Processor into a Mesh-of-Tiles Architecture for Generative AI Acceleration

Balboni, Luca (2026) Integration of a Vector Processor into a Mesh-of-Tiles Architecture for Generative AI Acceleration. [Laurea magistrale], Università di Bologna, Corso di Studio in Ingegneria elettronica [LM-DM270]
Documenti full-text disponibili:
[thumbnail of Thesis] Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato

Download (1MB)

Abstract

Le crescenti esigenze computazionali dei carichi di lavoro di Intelligenza Artificiale (AI) e High-Performance Computing (HPC) stanno guidando l’adozione di architetture di accelerazione sempre più scalabili e specializzate. In questo contesto, le architetture organizzate in tile interconnessi tramite Network-on-Chip (NoC) rappresentano una soluzione efficace per combinare parallelismo, modularità e scalabilità, consentendo elevate prestazioni ed efficienza energetica. Il lavoro, svolto in collaborazione tra l’Università di Bologna e la Fondazione Chips-IT, riguarda l’evoluzione di un tile appartenente a un’architettura open-source sviluppata nell’ambito della piattaforma PULP (Università di Bologna e ETH Zurich). Il lavoro ha riguardato un aggiornamento complessivo dell’architettura del tile e l’integrazione di nuovi moduli hardware. In particolare, è stato introdotto un meccanismo di controllo memory-mapped per gli acceleratori presenti nel tile, è stata integrata una nuova versione del processore di controllo ed è stato aggiunto un modulo dedicato alla gestione hardware degli eventi. Il contributo principale consiste nell’integrazione di un coprocessore vettoriale RISC-V dotato dell’estensione Zve32d, progettato per accelerare operazioni su vettori e migliorare l’efficienza nell’esecuzione di kernel numerici non strettamente matrice-matrice. L’architettura risultante è stata implementata in tecnologia GlobalFoundries a 12 nm con un target di frequenza di 800 MHz. Le prestazioni del sistema sono state valutate tramite simulazioni RTL cycle-accurate utilizzando microbenchmark FP16 rappresentativi di diverse tipologie di kernel numerici, tra cui MatMul, MatVec, DotP e VecSum. I risultati evidenziano come il coprocessore vettoriale risulti particolarmente efficiente nei carichi di lavoro vector-centric, mostrando prestazioni ed efficienza energetica competitive e dimostrando i vantaggi di un’architettura eterogenea di accelerazione.

Abstract
Tipologia del documento
Tesi di laurea (Laurea magistrale)
Autore della tesi
Balboni, Luca
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Indirizzo
INGEGNERIA ELETTRONICA
Ordinamento Cds
DM270
Parole chiave
Mesh-of-tiles, AI, Tensor Accelerator, Vector Processor, RISC-V, NoC
Data di discussione della Tesi
25 Marzo 2026
URI

Altri metadati

Statistica sui download

Gestione del documento: Visualizza il documento

^