Severini, Lorenzo
(2026)
Analisi di tecniche per lo sviluppo e l'ottimizzazione di modelli vision transformer (ViT) per il deployment su dispositivi embedded.
[Laurea magistrale], Università di Bologna, Corso di Studio in
Ingegneria informatica [LM-DM270], Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore.
(
Contatta l'autore)
Abstract
Nel contesto retail, la prevenzione delle perdite richiede sistemi di visione avanzati. La stima della profondità monoculare rappresenta una soluzione chiave , sebbene dipenda da Vision Transformers (ViT), architetture performanti ma onerose per l'hardware embedded.
l presente elaborato affronta le criticità del porting su NPU, ottimizzate per operazioni intere, implementando la strategia di quantizzazione Integer-Only (I-ViT) . La ricerca valida tale soluzione su GPU tramite stack TVM , confermandone l'efficacia in accuratezza e latenza teorica, pur evidenziando la necessità di fallback per alcuni operatori.
Successivamente, lo studio esamina l'hardware target NXP i.MX 8M Plus. Adottando il ViT Tiny come caso studio, l'analisi verifica il supporto NPU tramite porting e operazioni custom, sondando la compatibilità del compilatore e l'accelerazione fisica . I risultati confermano criticità significative: nonostante l'ottimizzazione, le latenze non soddisfano i requisiti real-time. Tuttavia, la validazione del modello Integer-Only e la mappatura dei limiti hardware forniscono una base solida per lo sviluppo futuro di ViT efficienti per l'Edge Computing.
Abstract
Nel contesto retail, la prevenzione delle perdite richiede sistemi di visione avanzati. La stima della profondità monoculare rappresenta una soluzione chiave , sebbene dipenda da Vision Transformers (ViT), architetture performanti ma onerose per l'hardware embedded.
l presente elaborato affronta le criticità del porting su NPU, ottimizzate per operazioni intere, implementando la strategia di quantizzazione Integer-Only (I-ViT) . La ricerca valida tale soluzione su GPU tramite stack TVM , confermandone l'efficacia in accuratezza e latenza teorica, pur evidenziando la necessità di fallback per alcuni operatori.
Successivamente, lo studio esamina l'hardware target NXP i.MX 8M Plus. Adottando il ViT Tiny come caso studio, l'analisi verifica il supporto NPU tramite porting e operazioni custom, sondando la compatibilità del compilatore e l'accelerazione fisica . I risultati confermano criticità significative: nonostante l'ottimizzazione, le latenze non soddisfano i requisiti real-time. Tuttavia, la validazione del modello Integer-Only e la mappatura dei limiti hardware forniscono una base solida per lo sviluppo futuro di ViT efficienti per l'Edge Computing.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Severini, Lorenzo
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Indirizzo
CURRICULUM INGEGNERIA INFORMATICA
Ordinamento Cds
DM270
Parole chiave
Computer Vision, Vision Transformer, Edge AI, Quantizzazione, NPU, Sistemi Embedded, Integer-only Inference, Quantization-Aware Training, Apache TVM, Monocular Depth Estimation, Loss Prevention, I-ViT
Data di discussione della Tesi
6 Febbraio 2026
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Severini, Lorenzo
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Indirizzo
CURRICULUM INGEGNERIA INFORMATICA
Ordinamento Cds
DM270
Parole chiave
Computer Vision, Vision Transformer, Edge AI, Quantizzazione, NPU, Sistemi Embedded, Integer-only Inference, Quantization-Aware Training, Apache TVM, Monocular Depth Estimation, Loss Prevention, I-ViT
Data di discussione della Tesi
6 Febbraio 2026
URI
Gestione del documento: