Approccio network-based alla discriminant analysis mediante HPC per la ricerca di signature ottimali in dati ad alta dimensionalità

Malagoli, Stefano (2014) Approccio network-based alla discriminant analysis mediante HPC per la ricerca di signature ottimali in dati ad alta dimensionalità. [Laurea magistrale], Università di Bologna, Corso di Studio in Fisica [LM-DM270]
Documenti full-text disponibili:
[img]
Anteprima
Documento PDF
Download (1MB) | Anteprima

Abstract

Il presente lavoro di tesi si inserisce nell’ambito della classificazione di dati ad alta dimensionalità, sviluppando un algoritmo basato sul metodo della Discriminant Analysis. Esso classifica i campioni attraverso le variabili prese a coppie formando un network a partire da quelle che hanno una performance sufficientemente elevata. Successivamente, l’algoritmo si avvale di proprietà topologiche dei network (in particolare la ricerca di subnetwork e misure di centralità di singoli nodi) per ottenere varie signature (sottoinsiemi delle variabili iniziali) con performance ottimali di classificazione e caratterizzate da una bassa dimensionalità (dell’ordine di 101, inferiore di almeno un fattore 103 rispetto alle variabili di partenza nei problemi trattati). Per fare ciò, l’algoritmo comprende una parte di definizione del network e un’altra di selezione e riduzione della signature, calcolando ad ogni passaggio la nuova capacità di classificazione operando test di cross-validazione (k-fold o leave- one-out). Considerato l’alto numero di variabili coinvolte nei problemi trattati – dell’ordine di 104 – l’algoritmo è stato necessariamente implementato su High-Performance Computer, con lo sviluppo in parallelo delle parti più onerose del codice C++, nella fattispecie il calcolo vero e proprio del di- scriminante e il sorting finale dei risultati. L’applicazione qui studiata è a dati high-throughput in ambito genetico, riguardanti l’espressione genica a livello cellulare, settore in cui i database frequentemente sono costituiti da un numero elevato di variabili (104 −105) a fronte di un basso numero di campioni (101 −102). In campo medico-clinico, la determinazione di signature a bassa dimensionalità per la discriminazione e classificazione di campioni (e.g. sano/malato, responder/not-responder, ecc.) è un problema di fondamentale importanza, ad esempio per la messa a punto di strategie terapeutiche personalizzate per specifici sottogruppi di pazienti attraverso la realizzazione di kit diagnostici per l’analisi di profili di espressione applicabili su larga scala. L’analisi effettuata in questa tesi su vari tipi di dati reali mostra che il metodo proposto, anche in confronto ad altri metodi esistenti basati o me- no sull’approccio a network, fornisce performance ottime, tenendo conto del fatto che il metodo produce signature con elevate performance di classifica- zione e contemporaneamente mantenendo molto ridotto il numero di variabili utilizzate per questo scopo.

Abstract
Tipologia del documento
Tesi di laurea (Laurea magistrale)
Autore della tesi
Malagoli, Stefano
Relatore della tesi
Scuola
Corso di studio
Indirizzo
Curriculum E: Fisica applicata
Ordinamento Cds
DM270
Parole chiave
class prediction, high dimensional data, gene expression, sub-optimal signature, discriminant analysis, network
Data di discussione della Tesi
24 Ottobre 2014
URI

Altri metadati

Statistica sui download

Gestione del documento: Visualizza il documento

^