Mengucci, Carlo
(2015)
Modello bayesiano per la regressione di dati troncati con applicazione a dati biologici.
[Laurea], Università di Bologna, Corso di Studio in
Fisica [L-DM270]
Documenti full-text disponibili:
Abstract
In questa tesi vengono valutati gli effetti sui modelli di regressione lineare da parte di troncature deterministiche dei dati analizzati, e viene proposto un metodo alternativo per effettuare queste regressioni, che rimuova queste distorsioni. In particolare vengono discussi questi effetti nel campo della ricerca biologica, come nel progetto Mark-Age.
Il progetto Mark-Age ha come obiettivo quello di ottenere un set di biomarcatori per l'invecchiamento, attraverso l'uso di metodi di data learning in analisi di tipo trasversale; elaborando cioè diverse variabili misurate sulle popolazioni esaminate riguardanti più sistemi fisiologici contemporaneamente e senza escludere interazioni locali fra queste.
E' necessario tenere conto in queste analisi che questi dati sono deterministicamente troncati per via dei criteri di selezione sull’età dei partecipanti, e che questo ha un effetto rilevante sui metodi di analisi standard, i quali invece ipotizzano che non vi sarebbe alcuna relazione fra l’assenza di un dato ed il suo valore, se questo fosse misurato.
In questa tesi vengono studiati gli effetti di questa troncatura sia per quanto riguarda la selezione di modelli ottimali, che della stima dei parametri per questi modelli.
Vengono studiati e caratterizzati questi effetti nell'ambito di un toy model, che permette di quantificare la distorsione e la perdita di potenza dovuta alla troncatura.
Viene inoltre introdotto un appropriato metodo di regressione, chiamato Tobit, che tenga conto di questi effetti. Questo metodo viene infine applicato ad un sottoinsieme dati del progetto Mark-Age, dimostrando una notevole riduzione del bias di predizione, ottenendo anche una stima della precisione di queste predizioni.
Abstract
In questa tesi vengono valutati gli effetti sui modelli di regressione lineare da parte di troncature deterministiche dei dati analizzati, e viene proposto un metodo alternativo per effettuare queste regressioni, che rimuova queste distorsioni. In particolare vengono discussi questi effetti nel campo della ricerca biologica, come nel progetto Mark-Age.
Il progetto Mark-Age ha come obiettivo quello di ottenere un set di biomarcatori per l'invecchiamento, attraverso l'uso di metodi di data learning in analisi di tipo trasversale; elaborando cioè diverse variabili misurate sulle popolazioni esaminate riguardanti più sistemi fisiologici contemporaneamente e senza escludere interazioni locali fra queste.
E' necessario tenere conto in queste analisi che questi dati sono deterministicamente troncati per via dei criteri di selezione sull’età dei partecipanti, e che questo ha un effetto rilevante sui metodi di analisi standard, i quali invece ipotizzano che non vi sarebbe alcuna relazione fra l’assenza di un dato ed il suo valore, se questo fosse misurato.
In questa tesi vengono studiati gli effetti di questa troncatura sia per quanto riguarda la selezione di modelli ottimali, che della stima dei parametri per questi modelli.
Vengono studiati e caratterizzati questi effetti nell'ambito di un toy model, che permette di quantificare la distorsione e la perdita di potenza dovuta alla troncatura.
Viene inoltre introdotto un appropriato metodo di regressione, chiamato Tobit, che tenga conto di questi effetti. Questo metodo viene infine applicato ad un sottoinsieme dati del progetto Mark-Age, dimostrando una notevole riduzione del bias di predizione, ottenendo anche una stima della precisione di queste predizioni.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Mengucci, Carlo
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
machine learning modelli lineari missing data biomarcatori
Data di discussione della Tesi
17 Luglio 2015
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Mengucci, Carlo
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
machine learning modelli lineari missing data biomarcatori
Data di discussione della Tesi
17 Luglio 2015
URI
Statistica sui download
Gestione del documento: