Statistical methods for the analysis of DNA sequences: application to dinucleotide distribution in the human genome

Paci, Giulia (2014) Statistical methods for the analysis of DNA sequences: application to dinucleotide distribution in the human genome. [Laurea magistrale], Università di Bologna, Corso di Studio in Fisica [LM-DM270]
Documenti full-text disponibili:
[img]
Anteprima
Documento PDF
Download (14MB) | Anteprima

Abstract

Questa tesi si inserisce nell'ambito delle analisi statistiche e dei metodi stocastici applicati all'analisi delle sequenze di DNA. Nello specifico il nostro lavoro è incentrato sullo studio del dinucleotide CG (CpG) all'interno del genoma umano, che si trova raggruppato in zone specifiche denominate CpG islands. Queste sono legate alla metilazione del DNA, un processo che riveste un ruolo fondamentale nella regolazione genica. La prima parte dello studio è dedicata a una caratterizzazione globale del contenuto e della distribuzione dei 16 diversi dinucleotidi all'interno del genoma umano: in particolare viene studiata la distribuzione delle distanze tra occorrenze successive dello stesso dinucleotide lungo la sequenza. I risultati vengono confrontati con diversi modelli nulli: sequenze random generate con catene di Markov di ordine zero (basate sulle frequenze relative dei nucleotidi) e uno (basate sulle probabilità di transizione tra diversi nucleotidi) e la distribuzione geometrica per le distanze. Da questa analisi le proprietà caratteristiche del dinucleotide CpG emergono chiaramente, sia dal confronto con gli altri dinucleotidi che con i modelli random. A seguito di questa prima parte abbiamo scelto di concentrare le successive analisi in zone di interesse biologico, studiando l’abbondanza e la distribuzione di CpG al loro interno (CpG islands, promotori e Lamina Associated Domains). Nei primi due casi si osserva un forte arricchimento nel contenuto di CpG, e la distribuzione delle distanze è spostata verso valori inferiori, indicando che questo dinucleotide è clusterizzato. All’interno delle LADs si trovano mediamente meno CpG e questi presentano distanze maggiori. Infine abbiamo adottato una rappresentazione a random walk del DNA, costruita in base al posizionamento dei dinucleotidi: il walk ottenuto presenta caratteristiche drasticamente diverse all’interno e all’esterno di zone annotate come CpG island. Riteniamo pertanto che metodi basati su questo approccio potrebbero essere sfruttati per migliorare l’individuazione di queste aree di interesse nel genoma umano e di altri organismi.

Abstract
Tipologia del documento
Tesi di laurea (Laurea magistrale)
Autore della tesi
Paci, Giulia
Relatore della tesi
Scuola
Corso di studio
Indirizzo
Curriculum E: Fisica applicata
Ordinamento Cds
DM270
Parole chiave
Human genome, CpG islands, Markov models, DNA walk
Data di discussione della Tesi
24 Ottobre 2014
URI

Altri metadati

Statistica sui download

Gestione del documento: Visualizza il documento

^