Tempesta, Giuseppe
(2019)
Studio e realizzazione in ambiente HPC di un algoritmo fault-tolerant per la soluzione di sistemi lineari basato sul Metodo delle Interdizioni.
[Laurea magistrale], Università di Bologna, Corso di Studio in
Ingegneria informatica [LM-DM270], Documento ad accesso riservato.
Documenti full-text disponibili:
|
Documento PDF (Thesis)
Full-text accessibile solo agli utenti istituzionali dell'Ateneo
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (4MB)
| Contatta l'autore
|
Abstract
Questo lavoro di tesi si inquadra nell’ambito di sistemi High Performance Computing (HPC) / High Availability Computing (HAC) , i quali vengono impiegati in moltissime applicazioni scientifiche. Il problema che si riscontra spesso è quello della fault-tolerance. Studi approfonditi ed analisi di dati mostrano che, con il progredire della tecnologia, il tempo medio tra un guasto ed un altro, ovvero il MTBF (Mean Time Between Failures), per un singolo nodo sia enormemente cresciuto. Questo significa che il verificarsi di un guasto risulta essere molto raro. Sebbene il MTBF per il singolo nodo sia cresciuto, quello dei sistemi HPC è diminuito, a causa della gran quantità di nodi presenti. Infatti, su cluster di grandi dimensioni è molto più probabile che si possa verificare un qualche tipo di guasto, facendo così abortire possibili job in esecuzione. Per ovviare a queste risapute problematiche spesso si utilizzano sistemi di checkpointing, i quali periodicamente salvano in maniera persistente il lavoro. In questo modo, in caso di guasto, sarà possibile riprendere l’esecuzione da dove si era bloccata. Occorre però pagare un costo in termini di tempo, speso per fermare l’esecuzione del job e salvare lo stato. La problematica affrontata in questo lavoro di tesi è legata alla risoluzione di sistemi lineari di grandi dimensioni. Questi sistemi vengono solitamente risolti su cluster HPC attraverso vari algoritmi, ma in questa tesi ci concentriamo su un metodo di soluzione per sistemi lineari chiamato Metodo delle Interdizioni (IMe), proposto dal prof. Filippo Ciampolini. L’idea è quella di realizzare un sistema di recovery diskless basato sul metodo prima menzionato; basandoci sulla formulazione matematica di checksum per il recovery, si procederà alla realizzazione di un sistema che non richiede di fermare l’esecuzione per il salvataggio dello stato. Successivi test proveranno l’efficacia di questa realizzazione.
Abstract
Questo lavoro di tesi si inquadra nell’ambito di sistemi High Performance Computing (HPC) / High Availability Computing (HAC) , i quali vengono impiegati in moltissime applicazioni scientifiche. Il problema che si riscontra spesso è quello della fault-tolerance. Studi approfonditi ed analisi di dati mostrano che, con il progredire della tecnologia, il tempo medio tra un guasto ed un altro, ovvero il MTBF (Mean Time Between Failures), per un singolo nodo sia enormemente cresciuto. Questo significa che il verificarsi di un guasto risulta essere molto raro. Sebbene il MTBF per il singolo nodo sia cresciuto, quello dei sistemi HPC è diminuito, a causa della gran quantità di nodi presenti. Infatti, su cluster di grandi dimensioni è molto più probabile che si possa verificare un qualche tipo di guasto, facendo così abortire possibili job in esecuzione. Per ovviare a queste risapute problematiche spesso si utilizzano sistemi di checkpointing, i quali periodicamente salvano in maniera persistente il lavoro. In questo modo, in caso di guasto, sarà possibile riprendere l’esecuzione da dove si era bloccata. Occorre però pagare un costo in termini di tempo, speso per fermare l’esecuzione del job e salvare lo stato. La problematica affrontata in questo lavoro di tesi è legata alla risoluzione di sistemi lineari di grandi dimensioni. Questi sistemi vengono solitamente risolti su cluster HPC attraverso vari algoritmi, ma in questa tesi ci concentriamo su un metodo di soluzione per sistemi lineari chiamato Metodo delle Interdizioni (IMe), proposto dal prof. Filippo Ciampolini. L’idea è quella di realizzare un sistema di recovery diskless basato sul metodo prima menzionato; basandoci sulla formulazione matematica di checksum per il recovery, si procederà alla realizzazione di un sistema che non richiede di fermare l’esecuzione per il salvataggio dello stato. Successivi test proveranno l’efficacia di questa realizzazione.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Tempesta, Giuseppe
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
High Performance Computing,sistemi lineari,Metodo delle Interdizioni,recovery,Algorithm Based Fault Tolerance
Data di discussione della Tesi
22 Luglio 2019
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Tempesta, Giuseppe
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
High Performance Computing,sistemi lineari,Metodo delle Interdizioni,recovery,Algorithm Based Fault Tolerance
Data di discussione della Tesi
22 Luglio 2019
URI
Statistica sui download
Gestione del documento: