Perlini, Francesca
(2024)
Metodi di machine learning per l'elaborazione di dataset biologici.
[Laurea], Università di Bologna, Corso di Studio in
Fisica [L-DM270], Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore.
(
Contatta l'autore)
Abstract
In questa tesi si introducono alcuni algoritmi di apprendimento supervisionato, descrivendone alcune tipologie e trattando diversi metodi per eseguire la selezione delle features dei dati in input.
Dopo aver esposto alcune caratteristiche dei sistemi di apprendimento supervisionato, sono stati descritti modelli quali gli alberi decisionali, Random Forest e XGBoost. Una parte della trattazione è stata riservata alla selezione delle features, una fase importante dello sviluppo dei modelli di apprendimento.
Successivamente alla trattazione teorica, sono stati elaborati due dataset di origine biologica. Il modello allenato sul primo dataset ha performato correttamente sul set di test, ottenendo un'accuratezza di 0.85 e un valore AUC di 0.92. Il modello allenato sul secondo dataset non ha generalizzato altrettanto bene l'informazione appresa dai dati, ottenendo un'accuratezza inferiore, tuttavia si prevede di continuare l'elaborazione con altri metodi.
Abstract
In questa tesi si introducono alcuni algoritmi di apprendimento supervisionato, descrivendone alcune tipologie e trattando diversi metodi per eseguire la selezione delle features dei dati in input.
Dopo aver esposto alcune caratteristiche dei sistemi di apprendimento supervisionato, sono stati descritti modelli quali gli alberi decisionali, Random Forest e XGBoost. Una parte della trattazione è stata riservata alla selezione delle features, una fase importante dello sviluppo dei modelli di apprendimento.
Successivamente alla trattazione teorica, sono stati elaborati due dataset di origine biologica. Il modello allenato sul primo dataset ha performato correttamente sul set di test, ottenendo un'accuratezza di 0.85 e un valore AUC di 0.92. Il modello allenato sul secondo dataset non ha generalizzato altrettanto bene l'informazione appresa dai dati, ottenendo un'accuratezza inferiore, tuttavia si prevede di continuare l'elaborazione con altri metodi.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Perlini, Francesca
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
machine learning,dataset biologici,selezione features,xgboost,classificazione binaria
Data di discussione della Tesi
26 Luglio 2024
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Perlini, Francesca
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
machine learning,dataset biologici,selezione features,xgboost,classificazione binaria
Data di discussione della Tesi
26 Luglio 2024
URI
Gestione del documento: