Verrocchio, Marco
(2013)
Progettazione e sviluppo di una versione distribuita di un algoritmo di subspace clustering.
[Laurea magistrale], Università di Bologna, Corso di Studio in
Informatica [LM-DM270]
Documenti full-text disponibili:
Abstract
Il task del data mining si pone come obiettivo l'estrazione automatica di schemi significativi da grandi quantità di dati.
Un esempio di schemi che possono essere cercati sono raggruppamenti significativi dei dati, si parla in questo caso di clustering.
Gli algoritmi di clustering tradizionali mostrano grossi limiti in caso di dataset ad
alta dimensionalità, composti cioè da oggetti descritti da un numero consistente
di attributi. Di fronte a queste tipologie di dataset è necessario quindi adottare
una diversa metodologia di analisi: il subspace clustering.
Il subspace clustering consiste nella visita del reticolo di tutti i possibili sottospazi alla ricerca di gruppi signicativi (cluster).
Una ricerca di questo tipo è un'operazione particolarmente costosa dal punto di vista computazionale.
Diverse ottimizzazioni sono state proposte al fine di rendere gli algoritmi di subspace clustering più efficienti.
In questo lavoro di tesi si è affrontato il problema da un punto di vista diverso: l'utilizzo della parallelizzazione al fine di ridurre il costo computazionale di un algoritmo di subspace clustering.
Abstract
Il task del data mining si pone come obiettivo l'estrazione automatica di schemi significativi da grandi quantità di dati.
Un esempio di schemi che possono essere cercati sono raggruppamenti significativi dei dati, si parla in questo caso di clustering.
Gli algoritmi di clustering tradizionali mostrano grossi limiti in caso di dataset ad
alta dimensionalità, composti cioè da oggetti descritti da un numero consistente
di attributi. Di fronte a queste tipologie di dataset è necessario quindi adottare
una diversa metodologia di analisi: il subspace clustering.
Il subspace clustering consiste nella visita del reticolo di tutti i possibili sottospazi alla ricerca di gruppi signicativi (cluster).
Una ricerca di questo tipo è un'operazione particolarmente costosa dal punto di vista computazionale.
Diverse ottimizzazioni sono state proposte al fine di rendere gli algoritmi di subspace clustering più efficienti.
In questo lavoro di tesi si è affrontato il problema da un punto di vista diverso: l'utilizzo della parallelizzazione al fine di ridurre il costo computazionale di un algoritmo di subspace clustering.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Verrocchio, Marco
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Indirizzo
Curriculum A: Scienze informatiche
Ordinamento Cds
DM270
Parole chiave
dINSCY, subspace clustering, data mining, parallelo, distribuito, algoritmo
Data di discussione della Tesi
20 Marzo 2013
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(Tesi di laurea magistrale)
Autore della tesi
Verrocchio, Marco
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Indirizzo
Curriculum A: Scienze informatiche
Ordinamento Cds
DM270
Parole chiave
dINSCY, subspace clustering, data mining, parallelo, distribuito, algoritmo
Data di discussione della Tesi
20 Marzo 2013
URI
Statistica sui download
Gestione del documento: