Progettazione ed ottimizzazione di un processore dedicato per accelerazione di reti neurali quantizzate a precisione mista

Nadalini, Alessandro (2021) Progettazione ed ottimizzazione di un processore dedicato per accelerazione di reti neurali quantizzate a precisione mista. [Laurea magistrale], Università di Bologna, Corso di Studio in Ingegneria elettronica [LM-DM270], Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore. (Contatta l'autore)

Abstract

Negli ultimi anni, insieme alla diffusione esponenziale di nodi IoT, è nata la necessità di impiegare algoritmi di Machine Learning e Deep Learning su questo tipo di dispositivi al fine di aumentare la densità dell'informazione raccolta e poi trasmessa. In un contesto caratterizzato da risorse limitate, uno degli approcci possibili è l'utilizzo di QNN che riducono la quantità di memoria necessaria per memorizzare i parametri della rete. La quantizzazione pone il problema di dover gestire in modo efficiente dati che possono avere dimensione inferiore al byte: sebbene un software ottimizzato possa migliorare le prestazioni legate all’esecuzione di un kernel, in letteratura si osserva che la strategia più premiante sia quella di fornire supporto hardware per l’accelerazione di operazioni legate alle applicazioni di DL. Al fine di raggiungere l’obiettivo di performance elevate e consumi compatibili con quelli di un sistema embedded senza rinunciare alla flessibilità di applicazione, un possibile approccio è quello delle estensioni ISA con istruzioni ottimizzate. In questa tesi si è optato per estendere l’instruction set di un processore RI5CY provvisto di istruzioni SIMD per operandi sub-byte ed a precisione mista combinandole con un’istruzione in grado di eseguire una MAC ed una load nello stesso ciclo di clock riducendo il tempo ed i consumi necessari all’esecuzione di un kernel. Per garantire la retrocompatibilità del processore proposto e per non saturare ulteriormente lo spazio di codifica, è stato scelto di rendere disponibili le nuove istruzioni solo quando il core si trova in modalità di funzionamento a stati. Grazie alle modifiche introdotte si può osservare un miglioramento di throughput fino a 1.62x nei confronti del processore originale e fino a 12.4x rispetto all’esecuzione su core RI5CY non esteso ma con supporto software per operazioni a precisione mista.

Abstract
Tipologia del documento
Tesi di laurea (Laurea magistrale)
Autore della tesi
Nadalini, Alessandro
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Indirizzo
INGEGNERIA ELETTRONICA
Ordinamento Cds
DM270
Parole chiave
QNN,RI5CY,PULP,Estensioni ISA
Data di discussione della Tesi
7 Ottobre 2021
URI

Altri metadati

Gestione del documento: Visualizza il documento

^