Arcara, Alessio
(2023)
Sperimentazione di tecniche di Machine Learning e Deep Learning per la previsione di Job Zombie in sistemi HTC.
[Laurea], Università di Bologna, Corso di Studio in
Informatica per il management [L-DM270]
Documenti full-text disponibili:
Abstract
Il CNAF (Centro Nazionale delle Tecnologie Informatiche e Telematiche) dell'INFN (Istituto Nazionale di Fisica Nucleare) gestisce uno dei più importanti centri di calcolo in Italia, utilizzato da gruppi di ricercatori di fisica delle particelle, astrofisica e altri campi. Questo centro è dotato di oltre 46000 core distribuiti su 960 host fisici. I job vengono accodati e schedulati dal sistema batch (HTCondor) attraverso l'uso di algoritmi di "fairshare". Durante l'esecuzione vengono monitorate alcune grandezze, che vengono campionate ogni tre minuti e raccolte in un database insieme ai dati di accounting relativi ai job terminati. Questo studio esplora l'uso di tecniche di Machine Learning e Deep Learning per prevedere il successo o il fallimento dei job, basandosi sull'evoluzione del loro stato nel tempo. In particolare, è stato identificato un sottoinsieme di job che falliscono, denominati zombie. Questi, pur smettendo di effettuare calcoli, non rilasciano l'host fisico, occupando improduttivamente delle risorse fino al loro timeout. L'obiettivo della tesi è stato quello di individuare questi job il più presto possibile, poiché identificarli nelle loro fasi iniziali risulta essere particolarmente vantaggioso in termini di risparmio di risorse derivante dalla loro rimozione.
Sono stati proposti e validati due modelli capaci di identificare i job che, con buona probabilità, diventeranno zombie (1 su 2). Le predizioni fornite dal modello possono essere utilizzate per impostare un filtro o un avviso, permettendo così di controllare manualmente i job sospetti o di stabilire una regola per la loro eliminazione.
Abstract
Il CNAF (Centro Nazionale delle Tecnologie Informatiche e Telematiche) dell'INFN (Istituto Nazionale di Fisica Nucleare) gestisce uno dei più importanti centri di calcolo in Italia, utilizzato da gruppi di ricercatori di fisica delle particelle, astrofisica e altri campi. Questo centro è dotato di oltre 46000 core distribuiti su 960 host fisici. I job vengono accodati e schedulati dal sistema batch (HTCondor) attraverso l'uso di algoritmi di "fairshare". Durante l'esecuzione vengono monitorate alcune grandezze, che vengono campionate ogni tre minuti e raccolte in un database insieme ai dati di accounting relativi ai job terminati. Questo studio esplora l'uso di tecniche di Machine Learning e Deep Learning per prevedere il successo o il fallimento dei job, basandosi sull'evoluzione del loro stato nel tempo. In particolare, è stato identificato un sottoinsieme di job che falliscono, denominati zombie. Questi, pur smettendo di effettuare calcoli, non rilasciano l'host fisico, occupando improduttivamente delle risorse fino al loro timeout. L'obiettivo della tesi è stato quello di individuare questi job il più presto possibile, poiché identificarli nelle loro fasi iniziali risulta essere particolarmente vantaggioso in termini di risparmio di risorse derivante dalla loro rimozione.
Sono stati proposti e validati due modelli capaci di identificare i job che, con buona probabilità, diventeranno zombie (1 su 2). Le predizioni fornite dal modello possono essere utilizzate per impostare un filtro o un avviso, permettendo così di controllare manualmente i job sospetti o di stabilire una regola per la loro eliminazione.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Arcara, Alessio
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Machine Learning,Deep Learning,Failure Prediction,Batch System,Multiple Multivariate Time Series
Data di discussione della Tesi
12 Dicembre 2023
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Arcara, Alessio
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Machine Learning,Deep Learning,Failure Prediction,Batch System,Multiple Multivariate Time Series
Data di discussione della Tesi
12 Dicembre 2023
URI
Statistica sui download
Gestione del documento: