Integration of a Vector Processor into a Mesh-of-Tiles Architecture for Generative AI Acceleration

Balboni, Luca (2026) Integration of a Vector Processor into a Mesh-of-Tiles Architecture for Generative AI Acceleration. [Laurea magistrale], Università di Bologna, Corso di Studio in Ingegneria elettronica [LM-DM270]

Salva citazione

Documenti full-text disponibili:

Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (1MB)

Abstract

Le crescenti esigenze computazionali dei carichi di lavoro di Intelligenza Artificiale (AI) e High-Performance Computing (HPC) stanno guidando l’adozione di architetture di accelerazione sempre più scalabili e specializzate. In questo contesto, le architetture organizzate in tile interconnessi tramite Network-on-Chip (NoC) rappresentano una soluzione efficace per combinare parallelismo, modularità e scalabilità, consentendo elevate prestazioni ed efficienza energetica. Il lavoro, svolto in collaborazione tra l’Università di Bologna e la Fondazione Chips-IT, riguarda l’evoluzione di un tile appartenente a un’architettura open-source sviluppata nell’ambito della piattaforma PULP (Università di Bologna e ETH Zurich). Il lavoro ha riguardato un aggiornamento complessivo dell’architettura del tile e l’integrazione di nuovi moduli hardware. In particolare, è stato introdotto un meccanismo di controllo memory-mapped per gli acceleratori presenti nel tile, è stata integrata una nuova versione del processore di controllo ed è stato aggiunto un modulo dedicato alla gestione hardware degli eventi. Il contributo principale consiste nell’integrazione di un coprocessore vettoriale RISC-V dotato dell’estensione Zve32d, progettato per accelerare operazioni su vettori e migliorare l’efficienza nell’esecuzione di kernel numerici non strettamente matrice-matrice. L’architettura risultante è stata implementata in tecnologia GlobalFoundries a 12 nm con un target di frequenza di 800 MHz. Le prestazioni del sistema sono state valutate tramite simulazioni RTL cycle-accurate utilizzando microbenchmark FP16 rappresentativi di diverse tipologie di kernel numerici, tra cui MatMul, MatVec, DotP e VecSum. I risultati evidenziano come il coprocessore vettoriale risulti particolarmente efficiente nei carichi di lavoro vector-centric, mostrando prestazioni ed efficienza energetica competitive e dimostrando i vantaggi di un’architettura eterogenea di accelerazione.

Abstract

Tipologia del documento

Tesi di laurea (Laurea magistrale)

Autore della tesi

Balboni, Luca

Relatore della tesi

Conti, Francesco

Correlatore della tesi

Tortorella, Yvan ; Nadalini, Alessandro

Scuola

Ingegneria e Architettura

Corso di studio