Sebastiani, Andrea
(2017)
Decomposizione CUR per una migliore analisi dei dati.
[Laurea], Università di Bologna, Corso di Studio in
Matematica [L-DM270]
Documenti full-text disponibili:
|
Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (535kB)
|
Abstract
Le tecniche comunemente utilizzate nell'analisi dei dati permettono di esprimere grandi matrici di dati in termini di un insieme di alcuni vettori ortogonali detti componenti principali. Solitamente questi vettori, essendo combinazioni lineari delle colonne e delle righe della matrice, risultano difficili da interpretare in termini del processo da cui provengono i dati. In questa tesi viene presentata e studiata la decomposizione CUR che permette di rappresentare la matrice in termini di alcune righe e/o colonne della matrice stessa. Tale proprietà rende più facile l'interpretazione dei risultati in termini dei dati di partenza. In particolare vengono presentati due algoritmi randomizzati per il campionamento delle righe/colonne della matrice e per la costruzione delle matrici della decomposizione. La tecnica utilizzata per il campionamento è una particolare strategia chiamata "subspace sampling" che permette di dimostrare l'esistenza di garanzie di tipo probabilistico per l'errore della decomposizione. Infine vengono presentati i risultati della riduzione delle informazioni di un dataset, proveniente da una directory web, ottenuta mediante la decomposizione CUR.
Abstract
Le tecniche comunemente utilizzate nell'analisi dei dati permettono di esprimere grandi matrici di dati in termini di un insieme di alcuni vettori ortogonali detti componenti principali. Solitamente questi vettori, essendo combinazioni lineari delle colonne e delle righe della matrice, risultano difficili da interpretare in termini del processo da cui provengono i dati. In questa tesi viene presentata e studiata la decomposizione CUR che permette di rappresentare la matrice in termini di alcune righe e/o colonne della matrice stessa. Tale proprietà rende più facile l'interpretazione dei risultati in termini dei dati di partenza. In particolare vengono presentati due algoritmi randomizzati per il campionamento delle righe/colonne della matrice e per la costruzione delle matrici della decomposizione. La tecnica utilizzata per il campionamento è una particolare strategia chiamata "subspace sampling" che permette di dimostrare l'esistenza di garanzie di tipo probabilistico per l'errore della decomposizione. Infine vengono presentati i risultati della riduzione delle informazioni di un dataset, proveniente da una directory web, ottenuta mediante la decomposizione CUR.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Sebastiani, Andrea
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
decomposizione CUR CX
Data di discussione della Tesi
27 Ottobre 2017
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Sebastiani, Andrea
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
decomposizione CUR CX
Data di discussione della Tesi
27 Ottobre 2017
URI
Statistica sui download
Gestione del documento: