Analisi e confronto di sequenze di DNA mediante modelli Markoviani

Morrone, Maria Francesca (2015) Analisi e confronto di sequenze di DNA mediante modelli Markoviani. [Laurea], Università di Bologna, Corso di Studio in Fisica [L-DM270]
Documenti full-text disponibili:
[img]
Anteprima
Documento PDF
Download (2MB) | Anteprima

Abstract

Lo scopo di questa tesi è quello di evidenziare, attraverso varie analisi statistiche ed applicazione di modelli stocastici, il comportamento strutturale e funzionale dei dinucleotidi che compongono le sequenze di DNA di diversi organismi. Gli organismi che abbiamo scelto di prendere in considerazione sono l'uomo, il topo e l'Escherichia coli. Questa scelta non è stata casuale, ma oculata, al fine di mettere in risalto alcune differenze tra organismi eucarioti, quali l'uomo e il topo, ed organismi procarioti come il batterio E.coli. Nella prima parte del nostro studio, abbiamo computato le distanze che intercorrono tra occorrenze successive dello stesso dinucleotide lungo la sequenza, usando un metodo di non sovrapposizione, ed abbiamo iterato il calcolo per tutti i 16 dinucleotidi. Dopodiché ci siamo preoccupati di graficare le distribuzioni di distanza dei 16 dinucleotidi per l'E.Coli, il topo e l'uomo; gli istogrammi evidenziano un comportamento anomalo della distribuzione di CG che accomuna gli organismi eucarioti e di cui, invece, è esente l'organismo procariote esaminato. Questo dato statistico trova una spiegazione nei processi biologici di metilazione che possono innescarsi sul dinucleotide CG nelle sequenze eucariotiche. In seguito, per determinare quanto ciascuna delle 16 distribuzioni si discosti dalle altre abbiamo usato la divergenza di Jensen-Shannon. Per quantificare le differenze sostanziali tra le distribuzioni di CG dei 3 organismi considerati abbiamo deciso di verificare quale fosse il miglior fit per tali curve tra un esponenziale ed una power-law. L'esponenziale rappresenta un buon fit per le code delle distribuzioni di CG del topo e dell'uomo; ciò rivela la presenza di una lunghezza caratteristica per entrambi gli organismi. Nella seconda parte dello studio, i risultati vengono confrontati con modelli markoviani: sequenze random generate con catene di Markov di ordine zero (basate sulle frequenze relative dei nucleotidi) e uno (basate sulle probabilità di transizione tra diversi nucleotidi). Quest'ultima riproduce abbastanza fedelmente la sequenza biologica di partenza, per cui abbiamo scelto di utilizzare la catena Markov del 1° ordine per altre analisi statistiche riguardanti le distribuzioni dei nucleotidi, dinucleotidi, ed anche dei trinucleotidi con particolare interesse per quelli in cui è contenuto CG, in modo da verificare se l'anomalia si ripercuote anche in essi. Riteniamo pertanto che metodi basati su questo approccio potrebbero essere sfruttati per confermare le peculiarità biologiche e per migliorare l'individuazione delle aree di interesse, come le isole CpG, ed eventualmente promotori e Lamina Associated Domains (LAD), nel genoma di diversi organismi.

Abstract
Tipologia del documento
Tesi di laurea (Laurea)
Autore della tesi
Morrone, Maria Francesca
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
interdistanze dinucleotidi catene_markoviane diatribuzione_distanze trinucleotidi fit code divergenza_Jensen-Shannon heatmap
Data di discussione della Tesi
11 Dicembre 2015
URI

Altri metadati

Statistica sui download

Gestione del documento: Visualizza il documento

^