STRUMENTI DI NAVIGAZIONE

Overfitting in modelli di machine learning: analisi quantitativa in neuroimaging

Ridolfi, Lorenzo (2020) Overfitting in modelli di machine learning: analisi quantitativa in neuroimaging. [Laurea magistrale], Università di Bologna, Corso di Studio in Ingegneria biomedica [LM-DM270] - Cesena, Documento full-text non disponibile

Salva citazione

Il full-text non è disponibile per scelta dell'autore. (Contatta l'autore)

Abstract

L’overfitting rappresenta una tra le problematiche principali dell’applicazione delle tecniche di Machine Learning (ML) a dati di neuroimaging. Esso si verifica quando un modello di ML apprende in maniera eccessiva dai dati, compromettendo drasticamente le sue abilità di generalizzazione. L’obiettivo di questo elaborato è quello di analizzare i diversi aspetti legati a tale fenomeno, quantificando l’errore di sovrastima nelle performance che si commetterebbe nel fare inferenza sulle caratteristiche del modello utilizzando l’intero dataset. A tale scopo, sono state valutate le prestazioni di differenti algoritmi di ML, implementati in Python, per risolvere sia un problema di classificazione che di regressione. Nel primo caso viene predetta la transizione a demenza in 64 pazienti con deterioramento cognitivo lieve di origine vascolare, sfruttando 23 indici derivati dalla clinica, dai test neuropsicologici e dal neuroimaging. Nel secondo caso, invece, l’obiettivo consiste nel predire l’età in un campione di 77 soggetti sani, utilizzando i soli indici provenienti dalle immagini di risonanza magnetica. Per entrambi i dataset è emersa, all’aumentare della complessità dei modelli, un incremento del grado di overfitting. In particolare, nel primo problema di ML, sono stati implementati tre differenti approcci di feature selection applicati all’algoritmo di support vector machine lineare. Nei primi due approcci sono presenti tre livelli di annidamento ed entrambi sono stati applicati prima escludendo il test set (procedura corretta), e successivamente includendolo nella fase di training; per entrambi gli approcci, l’inclusione del test set nella fase di training, porta ad una sovrastima dell’accuratezza bilanciata pari a 0.415 e 0.184, rispettivamente. Il terzo approccio di feature selection, con due livelli di annidamento, in cui il test set è stato correttamente escluso dalla fase di training, raggiunge un promettente valore di accuratezza bilanciata pari a 0.75.

Abstract

Tipologia del documento

Tesi di laurea (Laurea magistrale)

Autore della tesi

Ridolfi, Lorenzo

Relatore della tesi

Diciotti, Stefano

Correlatore della tesi

Marzi, Chiara

Scuola

Ingegneria e Architettura

Corso di studio