Cornaglia, Adele
(2026)
Il problema della classificazione in alta dimensione.
[Laurea], Università di Bologna, Corso di Studio in
Matematica [L-DM270], Documento ad accesso riservato.
Documenti full-text disponibili:
![[thumbnail of Thesis]](https://amslaurea.unibo.it/style/images/fileicons/application_pdf.png) |
Documento PDF (Thesis)
Full-text accessibile solo agli utenti istituzionali dell'Ateneo
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (1MB)
| Contatta l'autore
|
Abstract
Negli ultimi anni la crescente disponibilità di dati ad alta dimensionalità ha posto nuove sfide teoriche alla statistica e al machine learning. In molti contesti applicativi, infatti, il numero di variabili osservate può essere comparabile o superiore al numero di campioni disponibili. In questo regime, metodi classici ben compresi nel caso a bassa dimensione possono manifestare comportamenti inattesi.
Uno dei problemi fondamentali è quello della classificazione, e in particolare della regressione logistica per classi binarie. Tuttavia, nel regime ad alta dimensionalità anche proprietà fondamentali di questo metodo possono venir meno: in particolare, lo stimatore di massima verosimiglianza può non esistere quando i dati risultano linearmente separabili. Questo fenomeno è strettamente legato alla geometria dei dati.
A partire dal lavoro pionieristico di Cover (1965), fino ai risultati più recenti di Candès e Sur, è stato mostrato che nel regime asintotico ad alta dimensionalità emerge una soglia critica che separa due regimi: uno in cui la stima di massima verosimiglianza esiste ed è finita e uno in cui diverge.
In questo contesto si inserisce anche il lavoro di Mignacco et al., che studia la classificazione in modelli di miscela gaussiana ad alta dimensione e analizza fenomeni come la doppia discesa e il ruolo della regolarizzazione.
L’obiettivo di questa tesi è analizzare il problema della classificazione in alta dimensione e investigare la robustezza dei risultati teorici introducendo un modello superstatistico che generalizza l’ipotesi gaussiana.
Abstract
Negli ultimi anni la crescente disponibilità di dati ad alta dimensionalità ha posto nuove sfide teoriche alla statistica e al machine learning. In molti contesti applicativi, infatti, il numero di variabili osservate può essere comparabile o superiore al numero di campioni disponibili. In questo regime, metodi classici ben compresi nel caso a bassa dimensione possono manifestare comportamenti inattesi.
Uno dei problemi fondamentali è quello della classificazione, e in particolare della regressione logistica per classi binarie. Tuttavia, nel regime ad alta dimensionalità anche proprietà fondamentali di questo metodo possono venir meno: in particolare, lo stimatore di massima verosimiglianza può non esistere quando i dati risultano linearmente separabili. Questo fenomeno è strettamente legato alla geometria dei dati.
A partire dal lavoro pionieristico di Cover (1965), fino ai risultati più recenti di Candès e Sur, è stato mostrato che nel regime asintotico ad alta dimensionalità emerge una soglia critica che separa due regimi: uno in cui la stima di massima verosimiglianza esiste ed è finita e uno in cui diverge.
In questo contesto si inserisce anche il lavoro di Mignacco et al., che studia la classificazione in modelli di miscela gaussiana ad alta dimensione e analizza fenomeni come la doppia discesa e il ruolo della regolarizzazione.
L’obiettivo di questa tesi è analizzare il problema della classificazione in alta dimensione e investigare la robustezza dei risultati teorici introducendo un modello superstatistico che generalizza l’ipotesi gaussiana.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Cornaglia, Adele
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Machine learning,alta dimensione,glm,modello superstatistico
Data di discussione della Tesi
27 Marzo 2026
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Cornaglia, Adele
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Machine learning,alta dimensione,glm,modello superstatistico
Data di discussione della Tesi
27 Marzo 2026
URI
Statistica sui download
Gestione del documento: