Anomaly detection in HPC systems

Leto, Kevin (2019) Anomaly detection in HPC systems. [Laurea magistrale], Università di Bologna, Corso di Studio in Ingegneria informatica [LM-DM270], Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore. (Contatta l'autore)

Abstract

Nell’ambito dei supercomputer, l’attività di anomaly detection rappresenta un’ottima strategia per mantenere alte le performance del sistema (disponibilità ed affidabilità), consentendo di prevenire i guasti e di adattare l’attività di manutenzione alla salute del sistema stesso. Il supercomputer esaminato da questa ricerca è chiamato MARCONI ed appartiene al CINECA, consorzio interuniversitario italiano con sede a Bologna. I dati estratti per l’analisi si riferiscono in particolar modo al nodo “r183c12s04”, ma per provare la generalità dell’approccio sono stati eseguiti ulteriori test anche su nodi differenti (seppur di minor portata). L’approccio seguito sfrutta le potenzialità del machine learning, combinando addestramento non supervisionato e supervisionato. Un autoencoder viene addestrato in modo non supervisionato per ottenere una rappresentazione compressa (dimensionality reduction) dei dati grezzi estratti da un nodo del sistema. I dati compressi vengono poi forniti ad una rete neurale di 3 livelli (input, hidden, output) per effettuare una classificazione supervised tra stati normali e stati anomali. Il nostro approccio si è rilevato molto promettente, raggiungendo livelli di accuracy, precision, recall e f1_score tutti superiori al 97% per il nodo principale. Mentre livelli più bassi, ma comunque molto positivi (mediamente superiori al 83%) sono stati riscontrati per gli altri nodi presi in considerazione. Le performance non perfette degli altri nodi sono sicuramente causate dal basso numero di esempi anomalie presenti nei dataset di riferimento.

Abstract
Tipologia del documento
Tesi di laurea (Laurea magistrale)
Autore della tesi
Leto, Kevin
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
hpc system,anomaly detection,supervised learning,unsupervised learning
Data di discussione della Tesi
18 Dicembre 2019
URI

Altri metadati

Gestione del documento: Visualizza il documento

^