Documenti full-text disponibili:
![[thumbnail of Thesis]](https://amslaurea.unibo.it/style/images/fileicons/application_pdf.png) |
Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (7MB)
|
Abstract
L’elaborato analizza la fattibilità dell’esecuzione on-device di Large Language Models (LLM) in contesti di edge computing a risorse limitate, con particolare attenzione alle versioni più leggere dei modelli, gli Small Language Models (SLM). Come caso di studio è stato valutato il modello Gemma 3 270M, eseguito su Raspberry Pi 2 Model B in diverse configurazioni di quantizzazione (Q2–Q8 e F16) in formato .gguf tramite llama.cpp.
L’analisi combina benchmark eterogenei e misurazioni prestazionali per valutare l’impatto delle diverse quantizzazioni sull’efficienza e sulla qualità dell’elaborazione. Inoltre, è stato sviluppato un sintetizzatore vocale text-to-speech (TTS) completamente eseguito in locale.
I risultati confermano la praticabilità dell’esecuzione locale di modelli linguistici di piccole dimensioni e mostrano che le quantizzazioni Q4–Q6 offrono il miglior compromesso tra accuratezza e prestazioni su CPU. Infine, vengono discusse possibili estensioni e sviluppi futuri del lavoro.
Abstract
L’elaborato analizza la fattibilità dell’esecuzione on-device di Large Language Models (LLM) in contesti di edge computing a risorse limitate, con particolare attenzione alle versioni più leggere dei modelli, gli Small Language Models (SLM). Come caso di studio è stato valutato il modello Gemma 3 270M, eseguito su Raspberry Pi 2 Model B in diverse configurazioni di quantizzazione (Q2–Q8 e F16) in formato .gguf tramite llama.cpp.
L’analisi combina benchmark eterogenei e misurazioni prestazionali per valutare l’impatto delle diverse quantizzazioni sull’efficienza e sulla qualità dell’elaborazione. Inoltre, è stato sviluppato un sintetizzatore vocale text-to-speech (TTS) completamente eseguito in locale.
I risultati confermano la praticabilità dell’esecuzione locale di modelli linguistici di piccole dimensioni e mostrano che le quantizzazioni Q4–Q6 offrono il miglior compromesso tra accuratezza e prestazioni su CPU. Infine, vengono discusse possibili estensioni e sviluppi futuri del lavoro.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Bazzocchi, Alan
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Large,Language Models,Small,Raspberry,Pi,Gemma, 270M,Quantizzazione
Data di discussione della Tesi
20 Novembre 2025
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Bazzocchi, Alan
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Large,Language Models,Small,Raspberry,Pi,Gemma, 270M,Quantizzazione
Data di discussione della Tesi
20 Novembre 2025
URI
Statistica sui download
Gestione del documento: