Data analytics in ambito industriale: studio comparato di metodi e modelli di regressione su dataset reali

Montemitro, Matteo Biagio (2025) Data analytics in ambito industriale: studio comparato di metodi e modelli di regressione su dataset reali. [Laurea magistrale], Università di Bologna, Corso di Studio in Ingegneria gestionale [LM-DM270]

Salva citazione

Documenti full-text disponibili:

Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (3MB)

Abstract

L’Intelligenza Artificiale al giorno d’oggi sta prendendo piede sempre più. In questa tesi viene proposto un elaborato inerente al Machine Learning, una branca dell’Intelligenza Artificiale, per la previsione della durata dei jobs eseguiti dal Supercomputer giapponese Fugaku, trattando quindi dati reali tramite tecniche di Data Analytics. Sarà proposta una panoramica dello stato dell’arte, nonché dei tipi di dati trattati, accentuando l’attenzione sull’alta variabilità degli stessi. Verranno utilizzate strategie per il preprocessing, volte ad addestrare i modelli in maniera ottimale, sfoltendo le colonne del dataset di partenza da 45 a 17. Saranno proposti e selezionati diversi modelli e metodi in modo da ottenere la predizione migliore in relazione agli indici delle performance dei modelli, in particolare riferimento al MAPE (Mean Absolute Percentage Error) ed al MAE (Mean Absolute Error). Nello specifico, i modelli di Machine Learning proposti saranno 18 per la predizione del target ‘duration’, nonché durata dei jobs. Saranno mostrate, passo dopo passo, le scelte di diverse metodologie ottenendo così modelli con indici accettabili per i tipi di datasets analizzati. Vi sarà un’analisi puntuale e generale degli outliers, e in che misura questi impattano sulla bontà degli indici. Verranno mostrati gli indici MAPE e MAE e il loro intervallo di confidenza al 95% in modo da avere un parametro affidabilistico, con focus sui modelli migliori: Random Forest Regressor e Bagging Regressor. Tale elaborato ha lo scopo quindi di proporre le tecniche di machine learning migliori per la predizione delle durate inerenti ai jobs eseguiti dal Supercomputer Fugaku.

Abstract

Tipologia del documento

Tesi di laurea (Laurea magistrale)

Autore della tesi

Montemitro, Matteo Biagio

Relatore della tesi

Borghesi, Andrea

Scuola

Ingegneria e Architettura

Corso di studio

Ingegneria gestionale [LM-DM270]

Ordinamento Cds