Favale, Fabiana
(2025)
Uso del Machine Learning per l’identificazione di galassie Lyman-Break vicino a quasar luminosi ad alto redshift (z ≳ 6).
[Laurea magistrale], Università di Bologna, Corso di Studio in
Astrofisica e cosmologia [LM-DM270]
Documenti full-text disponibili:
Abstract
Lo studio delle galassie ad alto redshift (z > 6), corrispondente a circa 1 Gyr dopo il Big Bang, è cruciale per comprendere la formazione delle prime strutture cosmiche e la crescita dei buchi neri supermassicci (SMBHs). La scoperta di quasar ad alto redshift alimentati da SMBHs con masse estremamente elevate ha sollevato interrogativi sulla loro posizione in regioni sovradense. L’identificazione delle Lyman Break Galaxies (LBGs) in questi campi è complicata dalle magnitudini deboli e dalla contaminazione di sorgenti a redshift più basso. Il lavoro di tesi propone l’uso di tecniche di machine learning, come Random Forest (RF), Linear Discriminant Analysis (LDA) e Probabilistic Random Forest (PRF), per migliorare l’identificazione delle LBGs a z > 6, utilizzando dati fotometrici ottici e infrarossi. Il RF è un modello che combina la previsione di diversi alberi decisionali, mentre l'LDA ottimizza la separazione tra classi attraverso una combinazione lineare delle caratteristiche. Il PRF integra le incertezze nei dati per migliorare la robustezza delle previsioni. I modelli sono stati addestrati usando il catalogo SHELLQs, comprendente galassie a z ∼ 6 e stelle nane, e testati su un altro set relativo al campo attorno al quasar SDSSJ1030+0524. L'accuratezza dei modelli è stata valutata tramite diverse metriche, tra cui accuracy, precision, recall e F1-score. L’integrazione di PRF con la tecnica SMOTE per il bilanciamento del dataset ha migliorato le performance, con il PRF che ha raggiunto un'accuratezza del 97%. Un’applicazione finale della tesi ha riguardato il catalogo di galassie candidate a z ∼ 6 nel campo del quasar J005006.67+344521.6, confermando l'affidabilità del modello.
Questa ricerca contribuisce alla classificazione delle LBGs ad alto redshift, offrendo uno strumento efficace per analizzare grandi quantità di dati fotometrici, con potenziale applicazione a future survey su larga scala, come la Legacy Survey of Space and Time (LSST).
Abstract
Lo studio delle galassie ad alto redshift (z > 6), corrispondente a circa 1 Gyr dopo il Big Bang, è cruciale per comprendere la formazione delle prime strutture cosmiche e la crescita dei buchi neri supermassicci (SMBHs). La scoperta di quasar ad alto redshift alimentati da SMBHs con masse estremamente elevate ha sollevato interrogativi sulla loro posizione in regioni sovradense. L’identificazione delle Lyman Break Galaxies (LBGs) in questi campi è complicata dalle magnitudini deboli e dalla contaminazione di sorgenti a redshift più basso. Il lavoro di tesi propone l’uso di tecniche di machine learning, come Random Forest (RF), Linear Discriminant Analysis (LDA) e Probabilistic Random Forest (PRF), per migliorare l’identificazione delle LBGs a z > 6, utilizzando dati fotometrici ottici e infrarossi. Il RF è un modello che combina la previsione di diversi alberi decisionali, mentre l'LDA ottimizza la separazione tra classi attraverso una combinazione lineare delle caratteristiche. Il PRF integra le incertezze nei dati per migliorare la robustezza delle previsioni. I modelli sono stati addestrati usando il catalogo SHELLQs, comprendente galassie a z ∼ 6 e stelle nane, e testati su un altro set relativo al campo attorno al quasar SDSSJ1030+0524. L'accuratezza dei modelli è stata valutata tramite diverse metriche, tra cui accuracy, precision, recall e F1-score. L’integrazione di PRF con la tecnica SMOTE per il bilanciamento del dataset ha migliorato le performance, con il PRF che ha raggiunto un'accuratezza del 97%. Un’applicazione finale della tesi ha riguardato il catalogo di galassie candidate a z ∼ 6 nel campo del quasar J005006.67+344521.6, confermando l'affidabilità del modello.
Questa ricerca contribuisce alla classificazione delle LBGs ad alto redshift, offrendo uno strumento efficace per analizzare grandi quantità di dati fotometrici, con potenziale applicazione a future survey su larga scala, come la Legacy Survey of Space and Time (LSST).
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Favale, Fabiana
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
galassie alto redshift quasar SMBHs Lyman Break galaxies machine learning Random Forest Linear Discriminant Analysis Probabilistic Random Forest classificazione SQUEEzE
Data di discussione della Tesi
27 Marzo 2025
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Favale, Fabiana
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
galassie alto redshift quasar SMBHs Lyman Break galaxies machine learning Random Forest Linear Discriminant Analysis Probabilistic Random Forest classificazione SQUEEzE
Data di discussione della Tesi
27 Marzo 2025
URI
Statistica sui download
Gestione del documento: