Implementazione e benchmarking dell'algoritmo QDANet PRO per l'analisi di big data genomici

Curti, Nico (2016) Implementazione e benchmarking dell'algoritmo QDANet PRO per l'analisi di big data genomici. [Laurea magistrale], Università di Bologna, Corso di Studio in Fisica [LM-DM270]
Documenti full-text disponibili:
[img] Documento PDF
Disponibile con Licenza: Creative Commons Attribuzione - Non commerciale - Non opere derivate 3.0

Download (7MB)

Abstract

Dato il recente avvento delle tecnologie NGS, in grado di sequenziare interi genomi umani in tempi e costi ridotti, la capacità di estrarre informazioni dai dati ha un ruolo fondamentale per lo sviluppo della ricerca. Attualmente i problemi computazionali connessi a tali analisi rientrano nel topic dei Big Data, con databases contenenti svariati tipi di dati sperimentali di dimensione sempre più ampia. Questo lavoro di tesi si occupa dell'implementazione e del benchmarking dell'algoritmo QDANet PRO, sviluppato dal gruppo di Biofisica dell'Università di Bologna: il metodo consente l'elaborazione di dati ad alta dimensionalità per l'estrazione di una Signature a bassa dimensionalità di features con un'elevata performance di classificazione, mediante una pipeline d'analisi che comprende algoritmi di dimensionality reduction. Il metodo è generalizzabile anche all'analisi di dati non biologici, ma caratterizzati comunque da un elevato volume e complessità, fattori tipici dei Big Data. L'algoritmo QDANet PRO, valutando la performance di tutte le possibili coppie di features, ne stima il potere discriminante utilizzando un Naive Bayes Quadratic Classifier per poi determinarne il ranking. Una volta selezionata una soglia di performance, viene costruito un network delle features, da cui vengono determinate le componenti connesse. Ogni sottografo viene analizzato separatamente e ridotto mediante metodi basati sulla teoria dei networks fino all'estrapolazione della Signature finale. Il metodo, già precedentemente testato su alcuni datasets disponibili al gruppo di ricerca con riscontri positivi, è stato messo a confronto con i risultati ottenuti su databases omici disponibili in letteratura, i quali costituiscono un riferimento nel settore, e con algoritmi già esistenti che svolgono simili compiti. Per la riduzione dei tempi computazionali l'algoritmo è stato implementato in linguaggio C++ su HPC, con la parallelizzazione mediante librerie OpenMP delle parti più critiche.

Abstract
Tipologia del documento
Tesi di laurea (Laurea magistrale)
Autore della tesi
Curti, Nico
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Indirizzo
Curriculum E: Fisica applicata
Ordinamento Cds
DM270
Parole chiave
Big Data,C++,dimensionality reduction,features extraction,omic,TCGA,network,HPC
Data di discussione della Tesi
21 Ottobre 2016
URI

Altri metadati

Statistica sui download

Gestione del documento: Visualizza il documento

^