Sperimentazione di tecniche di Machine Learning e Deep Learning per la previsione di Job Zombie in sistemi HTC

Arcara, Alessio (2023) Sperimentazione di tecniche di Machine Learning e Deep Learning per la previsione di Job Zombie in sistemi HTC. [Laurea], Università di Bologna, Corso di Studio in Informatica per il management [L-DM270]

Salva citazione

Documenti full-text disponibili:

Documento PDF (Thesis)
Disponibile con Licenza: Creative Commons: Attribuzione - Condividi allo stesso modo 4.0 (CC BY-SA 4.0)
Download (5MB)

Abstract

Il CNAF (Centro Nazionale delle Tecnologie Informatiche e Telematiche) dell'INFN (Istituto Nazionale di Fisica Nucleare) gestisce uno dei più importanti centri di calcolo in Italia, utilizzato da gruppi di ricercatori di fisica delle particelle, astrofisica e altri campi. Questo centro è dotato di oltre 46000 core distribuiti su 960 host fisici. I job vengono accodati e schedulati dal sistema batch (HTCondor) attraverso l'uso di algoritmi di "fairshare". Durante l'esecuzione vengono monitorate alcune grandezze, che vengono campionate ogni tre minuti e raccolte in un database insieme ai dati di accounting relativi ai job terminati. Questo studio esplora l'uso di tecniche di Machine Learning e Deep Learning per prevedere il successo o il fallimento dei job, basandosi sull'evoluzione del loro stato nel tempo. In particolare, è stato identificato un sottoinsieme di job che falliscono, denominati zombie. Questi, pur smettendo di effettuare calcoli, non rilasciano l'host fisico, occupando improduttivamente delle risorse fino al loro timeout. L'obiettivo della tesi è stato quello di individuare questi job il più presto possibile, poiché identificarli nelle loro fasi iniziali risulta essere particolarmente vantaggioso in termini di risparmio di risorse derivante dalla loro rimozione. Sono stati proposti e validati due modelli capaci di identificare i job che, con buona probabilità, diventeranno zombie (1 su 2). Le predizioni fornite dal modello possono essere utilizzate per impostare un filtro o un avviso, permettendo così di controllare manualmente i job sospetti o di stabilire una regola per la loro eliminazione.

Abstract

Tipologia del documento

Tesi di laurea (Laurea)

Autore della tesi

Arcara, Alessio

Relatore della tesi

Marzolla, Moreno

Correlatore della tesi

Dal Pra, Stefano

Scuola

Scienze

Corso di studio