Progettazione e sviluppo di una versione distribuita di un algoritmo di subspace clustering

Verrocchio, Marco (2013) Progettazione e sviluppo di una versione distribuita di un algoritmo di subspace clustering. [Laurea magistrale], Università di Bologna, Corso di Studio in Informatica [LM-DM270]

Salva citazione

Documenti full-text disponibili:

[thumbnail of verrocchio_marco_tesi.pdf]

Anteprima

Documento PDF
Download (1MB) | Anteprima

Abstract

Il task del data mining si pone come obiettivo l'estrazione automatica di schemi significativi da grandi quantità di dati. Un esempio di schemi che possono essere cercati sono raggruppamenti significativi dei dati, si parla in questo caso di clustering. Gli algoritmi di clustering tradizionali mostrano grossi limiti in caso di dataset ad alta dimensionalità, composti cioè da oggetti descritti da un numero consistente di attributi. Di fronte a queste tipologie di dataset è necessario quindi adottare una diversa metodologia di analisi: il subspace clustering. Il subspace clustering consiste nella visita del reticolo di tutti i possibili sottospazi alla ricerca di gruppi signicativi (cluster). Una ricerca di questo tipo è un'operazione particolarmente costosa dal punto di vista computazionale. Diverse ottimizzazioni sono state proposte al fine di rendere gli algoritmi di subspace clustering più efficienti. In questo lavoro di tesi si è affrontato il problema da un punto di vista diverso: l'utilizzo della parallelizzazione al fine di ridurre il costo computazionale di un algoritmo di subspace clustering.

Abstract

Tipologia del documento

Tesi di laurea (Laurea magistrale)

Autore della tesi

Verrocchio, Marco

Relatore della tesi

Marzolla, Moreno

Correlatore della tesi

Magnani, Matteo

Scuola

Scienze

Corso di studio