Ridolfi, Lorenzo
(2020)
Overfitting in modelli di machine learning: analisi quantitativa in neuroimaging.
[Laurea magistrale], Università di Bologna, Corso di Studio in
Ingegneria biomedica [LM-DM270] - Cesena, Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore.
(
Contatta l'autore)
Abstract
L’overfitting rappresenta una tra le problematiche principali dell’applicazione delle tecniche di Machine Learning (ML) a dati di neuroimaging. Esso si verifica quando un modello di ML apprende in maniera eccessiva dai dati, compromettendo drasticamente le sue abilità di generalizzazione. L’obiettivo di questo elaborato è quello di analizzare i diversi aspetti legati a tale fenomeno, quantificando l’errore di sovrastima nelle performance che si commetterebbe nel fare inferenza sulle caratteristiche del modello utilizzando l’intero dataset. A tale scopo, sono state valutate le prestazioni di differenti algoritmi di ML, implementati in Python, per risolvere sia un problema di classificazione che di regressione. Nel primo caso viene predetta la transizione a demenza in 64 pazienti con deterioramento cognitivo lieve di origine vascolare, sfruttando 23 indici derivati dalla clinica, dai test neuropsicologici e dal neuroimaging. Nel secondo caso, invece, l’obiettivo consiste nel predire l’età in un campione di 77 soggetti sani, utilizzando i soli indici provenienti dalle immagini di risonanza magnetica. Per entrambi i dataset è emersa, all’aumentare della complessità dei modelli, un incremento del grado di overfitting. In particolare, nel primo problema di ML, sono stati implementati tre differenti approcci di feature selection applicati all’algoritmo di support vector machine lineare. Nei primi due approcci sono presenti tre livelli di annidamento ed entrambi sono stati applicati prima escludendo il test set (procedura corretta), e successivamente includendolo nella fase di training; per entrambi gli approcci, l’inclusione del test set nella fase di training, porta ad una sovrastima dell’accuratezza bilanciata pari a 0.415 e 0.184, rispettivamente. Il terzo approccio di feature selection, con due livelli di annidamento, in cui il test set è stato correttamente escluso dalla fase di training, raggiunge un promettente valore di accuratezza bilanciata pari a 0.75.
Abstract
L’overfitting rappresenta una tra le problematiche principali dell’applicazione delle tecniche di Machine Learning (ML) a dati di neuroimaging. Esso si verifica quando un modello di ML apprende in maniera eccessiva dai dati, compromettendo drasticamente le sue abilità di generalizzazione. L’obiettivo di questo elaborato è quello di analizzare i diversi aspetti legati a tale fenomeno, quantificando l’errore di sovrastima nelle performance che si commetterebbe nel fare inferenza sulle caratteristiche del modello utilizzando l’intero dataset. A tale scopo, sono state valutate le prestazioni di differenti algoritmi di ML, implementati in Python, per risolvere sia un problema di classificazione che di regressione. Nel primo caso viene predetta la transizione a demenza in 64 pazienti con deterioramento cognitivo lieve di origine vascolare, sfruttando 23 indici derivati dalla clinica, dai test neuropsicologici e dal neuroimaging. Nel secondo caso, invece, l’obiettivo consiste nel predire l’età in un campione di 77 soggetti sani, utilizzando i soli indici provenienti dalle immagini di risonanza magnetica. Per entrambi i dataset è emersa, all’aumentare della complessità dei modelli, un incremento del grado di overfitting. In particolare, nel primo problema di ML, sono stati implementati tre differenti approcci di feature selection applicati all’algoritmo di support vector machine lineare. Nei primi due approcci sono presenti tre livelli di annidamento ed entrambi sono stati applicati prima escludendo il test set (procedura corretta), e successivamente includendolo nella fase di training; per entrambi gli approcci, l’inclusione del test set nella fase di training, porta ad una sovrastima dell’accuratezza bilanciata pari a 0.415 e 0.184, rispettivamente. Il terzo approccio di feature selection, con due livelli di annidamento, in cui il test set è stato correttamente escluso dalla fase di training, raggiunge un promettente valore di accuratezza bilanciata pari a 0.75.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Ridolfi, Lorenzo
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
neuroimaging,machine learning,overfitting,cross-validazione,feature selection
Data di discussione della Tesi
12 Marzo 2020
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Ridolfi, Lorenzo
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
neuroimaging,machine learning,overfitting,cross-validazione,feature selection
Data di discussione della Tesi
12 Marzo 2020
URI
Gestione del documento: