Dall'Olio, Daniele
(2019)
Applicazione di un algoritmo d’apprendimento basato su sistemi fuori dall’equilibrio a dati di Genome Wide Association.
[Laurea magistrale], Università di Bologna, Corso di Studio in
Fisica [LM-DM270]
Documenti full-text disponibili:
|
Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (2MB)
|
Abstract
Il fenomeno dell’apprendimento può essere studiato attraverso metodiche di Meccanica Statistica. A partire dalle Neural Networks è possibile descrivere il problema dell'apprendimento mediante un sistema di spin interagenti. Usando una descrizione all’equilibrio del sistema e sotto opportune condizioni, tale problema si dimostra computazionalmente complesso. Tuttavia, esistono algoritmi euristici in grado di risolvere lo stesso problema efficacemente. Si dimostra che questa apparente inconsistenza è dovuta al fatto che lo spazio delle soluzioni degli algoritmi euristici non coincida con quello atteso all’equilibrio. Utilizzando una distribuzione fuori dall’equilibrio è possibile realizzare l’algoritmo replicated focusing Belief Propagation (rfBP), i cui risultati in termini di performance computazionali e di natura delle soluzioni sono in linea con i risultati degli algoritmi euristici. Questo lavoro evidenzia come l’utilizzo integrato di modelli a Spin-Glass, grafi e Neural Networks siano in grado di creare una base teorica solida per lo sviluppo di algoritmi di machine learning originali e innovativi.
Questo lavoro, inoltre, introduce una nuova libreria di C++ ottimizzata per il calcolo parallelo dell’algoritmo rfBP e applica tale algoritmo su dati di Genome Wide Association. Sono stati considerati campioni di genomi del batterio Salmonella, ospitati in diversi animali, ed è stato effettutato il training dell’algoritmo rfBP sull’insorgenza di mutazioni (Single Nucleotide Polymorphism, SNP), nel tentativo di determinare l’animale da cui essi sono stati ospitati. L’obiettivo di questa applicazione è capire come i genomi dei batteri siano influenzati dal proprio ospite animale e se è possibile evidenziare delle caratteristiche che permettano di risalire dalla sequenza di SNPs all’ospite. Questo lavoro mostra che l’algoritmo rfBP produce, su tali sequenze di SNPs, performance comparabili e superiori a quelli ricavati con le più comuni tecniche di Machine Learning.
Abstract
Il fenomeno dell’apprendimento può essere studiato attraverso metodiche di Meccanica Statistica. A partire dalle Neural Networks è possibile descrivere il problema dell'apprendimento mediante un sistema di spin interagenti. Usando una descrizione all’equilibrio del sistema e sotto opportune condizioni, tale problema si dimostra computazionalmente complesso. Tuttavia, esistono algoritmi euristici in grado di risolvere lo stesso problema efficacemente. Si dimostra che questa apparente inconsistenza è dovuta al fatto che lo spazio delle soluzioni degli algoritmi euristici non coincida con quello atteso all’equilibrio. Utilizzando una distribuzione fuori dall’equilibrio è possibile realizzare l’algoritmo replicated focusing Belief Propagation (rfBP), i cui risultati in termini di performance computazionali e di natura delle soluzioni sono in linea con i risultati degli algoritmi euristici. Questo lavoro evidenzia come l’utilizzo integrato di modelli a Spin-Glass, grafi e Neural Networks siano in grado di creare una base teorica solida per lo sviluppo di algoritmi di machine learning originali e innovativi.
Questo lavoro, inoltre, introduce una nuova libreria di C++ ottimizzata per il calcolo parallelo dell’algoritmo rfBP e applica tale algoritmo su dati di Genome Wide Association. Sono stati considerati campioni di genomi del batterio Salmonella, ospitati in diversi animali, ed è stato effettutato il training dell’algoritmo rfBP sull’insorgenza di mutazioni (Single Nucleotide Polymorphism, SNP), nel tentativo di determinare l’animale da cui essi sono stati ospitati. L’obiettivo di questa applicazione è capire come i genomi dei batteri siano influenzati dal proprio ospite animale e se è possibile evidenziare delle caratteristiche che permettano di risalire dalla sequenza di SNPs all’ospite. Questo lavoro mostra che l’algoritmo rfBP produce, su tali sequenze di SNPs, performance comparabili e superiori a quelli ricavati con le più comuni tecniche di Machine Learning.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Dall'Olio, Daniele
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Indirizzo
Curriculum E: Fisica applicata
Ordinamento Cds
DM270
Parole chiave
Spin Glass,Belief Propagation,Neural Network,Source Attribution,Genome Wide Association,Network Theory,Out-of-equilibrium Distribution,Large Deviation Analysis
Data di discussione della Tesi
19 Luglio 2019
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Dall'Olio, Daniele
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Indirizzo
Curriculum E: Fisica applicata
Ordinamento Cds
DM270
Parole chiave
Spin Glass,Belief Propagation,Neural Network,Source Attribution,Genome Wide Association,Network Theory,Out-of-equilibrium Distribution,Large Deviation Analysis
Data di discussione della Tesi
19 Luglio 2019
URI
Statistica sui download
Gestione del documento: