Montemitro, Matteo Biagio
(2025)
Data analytics in ambito industriale: studio comparato di metodi e modelli di regressione su dataset reali.
[Laurea magistrale], Università di Bologna, Corso di Studio in
Ingegneria gestionale [LM-DM270]
Documenti full-text disponibili:
![[thumbnail of Thesis]](https://amslaurea.unibo.it/style/images/fileicons/application_pdf.png) |
Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (3MB)
|
Abstract
L’Intelligenza Artificiale al giorno d’oggi sta prendendo piede sempre più. In questa tesi viene
proposto un elaborato inerente al Machine Learning, una branca dell’Intelligenza Artificiale, per
la previsione della durata dei jobs eseguiti dal Supercomputer giapponese Fugaku, trattando
quindi dati reali tramite tecniche di Data Analytics. Sarà proposta una panoramica dello stato
dell’arte, nonché dei tipi di dati trattati, accentuando l’attenzione sull’alta variabilità degli
stessi. Verranno utilizzate strategie per il preprocessing, volte ad addestrare i modelli in
maniera ottimale, sfoltendo le colonne del dataset di partenza da 45 a 17. Saranno proposti e
selezionati diversi modelli e metodi in modo da ottenere la predizione migliore in relazione agli
indici delle performance dei modelli, in particolare riferimento al MAPE (Mean Absolute
Percentage Error) ed al MAE (Mean Absolute Error). Nello specifico, i modelli di Machine
Learning proposti saranno 18 per la predizione del target ‘duration’, nonché durata dei jobs.
Saranno mostrate, passo dopo passo, le scelte di diverse metodologie ottenendo così modelli
con indici accettabili per i tipi di datasets analizzati. Vi sarà un’analisi puntuale e generale degli
outliers, e in che misura questi impattano sulla bontà degli indici. Verranno mostrati gli indici
MAPE e MAE e il loro intervallo di confidenza al 95% in modo da avere un parametro
affidabilistico, con focus sui modelli migliori: Random Forest Regressor e Bagging Regressor.
Tale elaborato ha lo scopo quindi di proporre le tecniche di machine learning migliori per la
predizione delle durate inerenti ai jobs eseguiti dal Supercomputer Fugaku.
Abstract
L’Intelligenza Artificiale al giorno d’oggi sta prendendo piede sempre più. In questa tesi viene
proposto un elaborato inerente al Machine Learning, una branca dell’Intelligenza Artificiale, per
la previsione della durata dei jobs eseguiti dal Supercomputer giapponese Fugaku, trattando
quindi dati reali tramite tecniche di Data Analytics. Sarà proposta una panoramica dello stato
dell’arte, nonché dei tipi di dati trattati, accentuando l’attenzione sull’alta variabilità degli
stessi. Verranno utilizzate strategie per il preprocessing, volte ad addestrare i modelli in
maniera ottimale, sfoltendo le colonne del dataset di partenza da 45 a 17. Saranno proposti e
selezionati diversi modelli e metodi in modo da ottenere la predizione migliore in relazione agli
indici delle performance dei modelli, in particolare riferimento al MAPE (Mean Absolute
Percentage Error) ed al MAE (Mean Absolute Error). Nello specifico, i modelli di Machine
Learning proposti saranno 18 per la predizione del target ‘duration’, nonché durata dei jobs.
Saranno mostrate, passo dopo passo, le scelte di diverse metodologie ottenendo così modelli
con indici accettabili per i tipi di datasets analizzati. Vi sarà un’analisi puntuale e generale degli
outliers, e in che misura questi impattano sulla bontà degli indici. Verranno mostrati gli indici
MAPE e MAE e il loro intervallo di confidenza al 95% in modo da avere un parametro
affidabilistico, con focus sui modelli migliori: Random Forest Regressor e Bagging Regressor.
Tale elaborato ha lo scopo quindi di proporre le tecniche di machine learning migliori per la
predizione delle durate inerenti ai jobs eseguiti dal Supercomputer Fugaku.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Montemitro, Matteo Biagio
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Machine Learning,Random Forest,Bagging,Intervalli di confidenza,Mean Absolute Percentage Error
Data di discussione della Tesi
6 Febbraio 2025
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Montemitro, Matteo Biagio
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Machine Learning,Random Forest,Bagging,Intervalli di confidenza,Mean Absolute Percentage Error
Data di discussione della Tesi
6 Febbraio 2025
URI
Statistica sui download
Gestione del documento: