Bertocchi, Matteo
(2024)
Fattorizzazione non negativa di matrici nel clustering di grafi.
[Laurea], Università di Bologna, Corso di Studio in
Matematica [L-DM270], Documento ad accesso riservato.
Documenti full-text disponibili:
![[thumbnail of Thesis]](https://amslaurea.unibo.it/style/images/fileicons/application_pdf.png) |
Documento PDF (Thesis)
Full-text accessibile solo agli utenti istituzionali dell'Ateneo
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (1MB)
| Contatta l'autore
|
Abstract
Il problema della fattorizzazione non negativa di matrici consiste nell'approssimare una matrice X non negativa tramite il prodotto di due matrici W e H, anch'esse non negative, con il duplice fine di ridurre le dimensioni dei dati ed ottenere una loro rappresentazione facilmente interpretabile. La generalità del problema porta a diverse varianti a seconda degli ulteriori vincoli da imporre sui dati iniziali e sulle matrici da calcolare. Lo scopo dell'elaborato è utilizzare un algoritmo basato su NMF per suddividere in gruppi i nodi di un grafo nella procedura detta di graph clustering. Data l'equivalenza tra grafi indiretti e matrici di adiacenza ci concentriamo perciò sulla variante simmetrica di NMF (SymNMF), dove si richiede che W'=H e dunque X è approssimata dal prodotto WW'. Dopo aver parlato della variante simmetrica introduciamo i metodi CD ed enunciamo alcuni risultati di convergenza, dimostrandone uno per BCD. Fissando come misura d'errore il quadrato della norma di Frobenius di X-WW' creiamo un algoritmo CD che trova la soluzione della SymNMF aggiornando una colonna di W per volta. Descriviamo la risoluzione del problema di rango uno necessario all'aggiornamento delle colonne, quindi mostriamo la convergenza a punti stazionari della successione delle iterate. Con l'algoritmo scelto effettuiamo tre analisi su dataset diversi, mostrando che nei primi due casi la SymNMF è in grado di riprodurre quasi perfettamente i gruppi osservati nella realtà. Il terzo caso presenta alcune differenze con la realtà ma, effettuando un'analisi delle componenti principali dello stesso dataset, osserviamo che alcune delle lacune sono riconducibili a outliers e che in generale i risultati ottenuti con i due metodi sono altamente compatibili.
Abstract
Il problema della fattorizzazione non negativa di matrici consiste nell'approssimare una matrice X non negativa tramite il prodotto di due matrici W e H, anch'esse non negative, con il duplice fine di ridurre le dimensioni dei dati ed ottenere una loro rappresentazione facilmente interpretabile. La generalità del problema porta a diverse varianti a seconda degli ulteriori vincoli da imporre sui dati iniziali e sulle matrici da calcolare. Lo scopo dell'elaborato è utilizzare un algoritmo basato su NMF per suddividere in gruppi i nodi di un grafo nella procedura detta di graph clustering. Data l'equivalenza tra grafi indiretti e matrici di adiacenza ci concentriamo perciò sulla variante simmetrica di NMF (SymNMF), dove si richiede che W'=H e dunque X è approssimata dal prodotto WW'. Dopo aver parlato della variante simmetrica introduciamo i metodi CD ed enunciamo alcuni risultati di convergenza, dimostrandone uno per BCD. Fissando come misura d'errore il quadrato della norma di Frobenius di X-WW' creiamo un algoritmo CD che trova la soluzione della SymNMF aggiornando una colonna di W per volta. Descriviamo la risoluzione del problema di rango uno necessario all'aggiornamento delle colonne, quindi mostriamo la convergenza a punti stazionari della successione delle iterate. Con l'algoritmo scelto effettuiamo tre analisi su dataset diversi, mostrando che nei primi due casi la SymNMF è in grado di riprodurre quasi perfettamente i gruppi osservati nella realtà. Il terzo caso presenta alcune differenze con la realtà ma, effettuando un'analisi delle componenti principali dello stesso dataset, osserviamo che alcune delle lacune sono riconducibili a outliers e che in generale i risultati ottenuti con i due metodi sono altamente compatibili.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Bertocchi, Matteo
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
NMF,SymNMF,Discesa delle coordinate,Graph clustering
Data di discussione della Tesi
31 Ottobre 2024
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Bertocchi, Matteo
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
NMF,SymNMF,Discesa delle coordinate,Graph clustering
Data di discussione della Tesi
31 Ottobre 2024
URI
Statistica sui download
Gestione del documento: