Data analytics in ambito industriale: studio comparato di metodi e modelli di regressione su dataset reali

Montemitro, Matteo Biagio (2025) Data analytics in ambito industriale: studio comparato di metodi e modelli di regressione su dataset reali. [Laurea magistrale], Università di Bologna, Corso di Studio in Ingegneria gestionale [LM-DM270]
Documenti full-text disponibili:
[thumbnail of Thesis] Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato

Download (3MB)

Abstract

L’Intelligenza Artificiale al giorno d’oggi sta prendendo piede sempre più. In questa tesi viene proposto un elaborato inerente al Machine Learning, una branca dell’Intelligenza Artificiale, per la previsione della durata dei jobs eseguiti dal Supercomputer giapponese Fugaku, trattando quindi dati reali tramite tecniche di Data Analytics. Sarà proposta una panoramica dello stato dell’arte, nonché dei tipi di dati trattati, accentuando l’attenzione sull’alta variabilità degli stessi. Verranno utilizzate strategie per il preprocessing, volte ad addestrare i modelli in maniera ottimale, sfoltendo le colonne del dataset di partenza da 45 a 17. Saranno proposti e selezionati diversi modelli e metodi in modo da ottenere la predizione migliore in relazione agli indici delle performance dei modelli, in particolare riferimento al MAPE (Mean Absolute Percentage Error) ed al MAE (Mean Absolute Error). Nello specifico, i modelli di Machine Learning proposti saranno 18 per la predizione del target ‘duration’, nonché durata dei jobs. Saranno mostrate, passo dopo passo, le scelte di diverse metodologie ottenendo così modelli con indici accettabili per i tipi di datasets analizzati. Vi sarà un’analisi puntuale e generale degli outliers, e in che misura questi impattano sulla bontà degli indici. Verranno mostrati gli indici MAPE e MAE e il loro intervallo di confidenza al 95% in modo da avere un parametro affidabilistico, con focus sui modelli migliori: Random Forest Regressor e Bagging Regressor. Tale elaborato ha lo scopo quindi di proporre le tecniche di machine learning migliori per la predizione delle durate inerenti ai jobs eseguiti dal Supercomputer Fugaku.

Abstract
Tipologia del documento
Tesi di laurea (Laurea magistrale)
Autore della tesi
Montemitro, Matteo Biagio
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Machine Learning,Random Forest,Bagging,Intervalli di confidenza,Mean Absolute Percentage Error
Data di discussione della Tesi
6 Febbraio 2025
URI

Altri metadati

Statistica sui download

Gestione del documento: Visualizza il documento

^