Implementazione, creazione e ottimizzazione di una pipeline per l'analisi biofisica su cluster a basso consumo energetico.

Dall'Olio, Daniele (2017) Implementazione, creazione e ottimizzazione di una pipeline per l'analisi biofisica su cluster a basso consumo energetico. [Laurea], Università di Bologna, Corso di Studio in Fisica [L-DM270]
Documenti full-text disponibili:
[thumbnail of Thesis] Documento PDF (Thesis)
Disponibile con Licenza: Creative Commons: Attribuzione - Condividi allo stesso modo 3.0 (CC BY-SA 3.0)

Download (895kB)

Abstract

In questa tesi si è studiata l'efficienza computazionale di nodi di calcolo a basso consumo energetico per l'analisi biofisica, confrontati con nodi tradizionali. Questo lavoro è parte di un progetto per valutare la fattibilità dell'utilizzo di macchine a basso consumo energetico per calcolo ad alta performance. Lo scopo della ricerca è provare che l'utilizzo di cluster low power possa fornire una potenza di calcolo confrontabile con quelli tradizionali. Il sistema su cui si è concentrato il lavoro di tesi è uno dei metodi più recenti nella ricerca sulle mutazioni genetiche che sono cause di vari tipi di tumori: il sistema GATK-LODn. Nel corso della tesi è stata reimplementata una componente di questo metodo in una pipeline nel programma Snakemake, che ha permesso una gestione più accurata delle operazioni previste per ottimizzare l'esecuzione complessiva. Questa tesi prende in esame questo algoritmo di bioinformatica per valutare se è realmente possibile confrontare le capacità dei nodi low power con quelli tradizionali, in quanto questo richiede alte prestazioni computazionali, di memoria e capacità di storage. Nel primo capitolo saranno spiegati gli elementi del progetto. Sarà esposto il metodo GATK-LODn. Sarà poi descritta la parte del metodo che è stata reimplementata tramite Snakemake e saranno approfondite le capacità di questo strumento. Infine, sarà spiegato il significato di "nodo low power" e saranno descritte le caratteristiche dei nodi adoperati nelle analisi. Nel secondo capitolo sarà spiegato il funzionamento del programma, approfondendo i parametri utilizzati, e verranno evidenziati i passaggi necessari per un corretto uso del metodo. In più, saranno descritte le fasi dello studio statistico e sarà spiegata la tipologia di simulazioni effettuate. Infine verrano discussi i risultati finali più rilevanti per ciascuna regola della pipeline in termini di tempi di esecuzioni e memoria occupata.

Abstract
Tipologia del documento
Tesi di laurea (Laurea)
Autore della tesi
Dall'Olio, Daniele
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
consumo energetico,calcolo ad alta performance,cluster,low power,pipeline,bioinformatica
Data di discussione della Tesi
22 Settembre 2017
URI

Altri metadati

Statistica sui download

Gestione del documento: Visualizza il documento

^