Analisi di tecniche per lo sviluppo e l'ottimizzazione di modelli vision transformer (ViT) per il deployment su dispositivi embedded.

Severini, Lorenzo (2026) Analisi di tecniche per lo sviluppo e l'ottimizzazione di modelli vision transformer (ViT) per il deployment su dispositivi embedded. [Laurea magistrale], Università di Bologna, Corso di Studio in Ingegneria informatica [LM-DM270], Documento full-text non disponibile

Salva citazione

Il full-text non è disponibile per scelta dell'autore. (Contatta l'autore)

Abstract

Nel contesto retail, la prevenzione delle perdite richiede sistemi di visione avanzati. La stima della profondità monoculare rappresenta una soluzione chiave , sebbene dipenda da Vision Transformers (ViT), architetture performanti ma onerose per l'hardware embedded. l presente elaborato affronta le criticità del porting su NPU, ottimizzate per operazioni intere, implementando la strategia di quantizzazione Integer-Only (I-ViT) . La ricerca valida tale soluzione su GPU tramite stack TVM , confermandone l'efficacia in accuratezza e latenza teorica, pur evidenziando la necessità di fallback per alcuni operatori. Successivamente, lo studio esamina l'hardware target NXP i.MX 8M Plus. Adottando il ViT Tiny come caso studio, l'analisi verifica il supporto NPU tramite porting e operazioni custom, sondando la compatibilità del compilatore e l'accelerazione fisica . I risultati confermano criticità significative: nonostante l'ottimizzazione, le latenze non soddisfano i requisiti real-time. Tuttavia, la validazione del modello Integer-Only e la mappatura dei limiti hardware forniscono una base solida per lo sviluppo futuro di ViT efficienti per l'Edge Computing.

Abstract

Tipologia del documento

Tesi di laurea (Laurea magistrale)

Autore della tesi

Severini, Lorenzo

Relatore della tesi

Di Stefano, Luigi

Correlatore della tesi

Musiani, Robert

Scuola

Ingegneria e Architettura

Corso di studio

Ingegneria informatica [LM-DM270]

Indirizzo

CURRICULUM INGEGNERIA INFORMATICA

Ordinamento Cds

DM270

Parole chiave

Computer Vision, Vision Transformer, Edge AI, Quantizzazione, NPU, Sistemi Embedded, Integer-only Inference, Quantization-Aware Training, Apache TVM, Monocular Depth Estimation, Loss Prevention, I-ViT

Data di discussione della Tesi

6 Febbraio 2026

URI

https://amslaurea.unibo.it/id/eprint/37878

Altri metadati

Gestione del documento:

Strumenti di navigazione

Collezioni AlmaDL

Analisi di tecniche per lo sviluppo e l'ottimizzazione di modelli vision transformer (ViT) per il deployment su dispositivi embedded.

Abstract

Altri metadati