Documenti full-text disponibili:
Abstract
Lo scopo del clustering è quindi quello di individuare strutture nei dati significative, ed è proprio dalla seguente definizione che è iniziata questa attività
di tesi , fornendo un approccio innovativo ed inesplorato al cluster, ovvero non ricercando la relazione ma ragionando su cosa non lo sia.
Osservando un insieme di dati ,cosa rappresenta la non relazione? Una domanda difficile da porsi , che ha intrinsecamente la sua risposta, ovvero l’indipendenza di ogni singolo dato da tutti gli altri.
La ricerca quindi dell’indipendenza tra i dati ha portato il nostro pensiero all’approccio statistico ai dati , in quanto essa è ben descritta e dimostrata in statistica.
Ogni punto in un dataset, per essere considerato “privo di
collegamenti/relazioni” , significa che la stessa probabilità di essere presente in ogni elemento spaziale dell’intero dataset. Matematicamente parlando , ogni punto P in uno spazio S ha la stessa probabilità di cadere in una regione R ; il che vuol dire che tale punto può CASUALMENTE essere all’interno di una qualsiasi regione del dataset.
Da questa assunzione inizia il lavoro di tesi, diviso in più parti.
Il secondo capitolo analizza lo stato dell’arte del clustering, raffrontato alla crescente problematica della mole di dati, che con l’avvento della diffusione della rete ha visto incrementare esponenzialmente la grandezza delle basi di conoscenza sia in termini di attributi (dimensioni) che in termini di quantità di dati (Big Data).
Il terzo capitolo richiama i concetti teorico-statistici utilizzati dagli algoritimi statistici implementati.
Nel quarto capitolo vi sono i dettagli relativi
all’implementazione degli algoritmi , ove sono descritte le
varie fasi di investigazione ,le motivazioni sulle scelte
architetturali e le considerazioni che hanno portato
all’esclusione di una delle 3 versioni implementate.
Nel quinto capitolo gli algoritmi 2 e 3 sono confrontati con
alcuni algoritmi presenti in letteratura, per dimostrare le
potenzialità e le problematiche dell’algoritmo sviluppato , tali test sono a livello qualitativo , in quanto l’obbiettivo del lavoro di tesi è dimostrare come un approccio statistico può rivelarsi un’arma vincente e non quello di fornire un nuovo algoritmo utilizzabile nelle varie problematiche di clustering.
Nel sesto capitolo saranno tratte le conclusioni sul lavoro
svolto e saranno elencati i possibili interventi futuri dai quali la ricerca appena iniziata del clustering statistico potrebbe crescere.
Abstract
Lo scopo del clustering è quindi quello di individuare strutture nei dati significative, ed è proprio dalla seguente definizione che è iniziata questa attività
di tesi , fornendo un approccio innovativo ed inesplorato al cluster, ovvero non ricercando la relazione ma ragionando su cosa non lo sia.
Osservando un insieme di dati ,cosa rappresenta la non relazione? Una domanda difficile da porsi , che ha intrinsecamente la sua risposta, ovvero l’indipendenza di ogni singolo dato da tutti gli altri.
La ricerca quindi dell’indipendenza tra i dati ha portato il nostro pensiero all’approccio statistico ai dati , in quanto essa è ben descritta e dimostrata in statistica.
Ogni punto in un dataset, per essere considerato “privo di
collegamenti/relazioni” , significa che la stessa probabilità di essere presente in ogni elemento spaziale dell’intero dataset. Matematicamente parlando , ogni punto P in uno spazio S ha la stessa probabilità di cadere in una regione R ; il che vuol dire che tale punto può CASUALMENTE essere all’interno di una qualsiasi regione del dataset.
Da questa assunzione inizia il lavoro di tesi, diviso in più parti.
Il secondo capitolo analizza lo stato dell’arte del clustering, raffrontato alla crescente problematica della mole di dati, che con l’avvento della diffusione della rete ha visto incrementare esponenzialmente la grandezza delle basi di conoscenza sia in termini di attributi (dimensioni) che in termini di quantità di dati (Big Data).
Il terzo capitolo richiama i concetti teorico-statistici utilizzati dagli algoritimi statistici implementati.
Nel quarto capitolo vi sono i dettagli relativi
all’implementazione degli algoritmi , ove sono descritte le
varie fasi di investigazione ,le motivazioni sulle scelte
architetturali e le considerazioni che hanno portato
all’esclusione di una delle 3 versioni implementate.
Nel quinto capitolo gli algoritmi 2 e 3 sono confrontati con
alcuni algoritmi presenti in letteratura, per dimostrare le
potenzialità e le problematiche dell’algoritmo sviluppato , tali test sono a livello qualitativo , in quanto l’obbiettivo del lavoro di tesi è dimostrare come un approccio statistico può rivelarsi un’arma vincente e non quello di fornire un nuovo algoritmo utilizzabile nelle varie problematiche di clustering.
Nel sesto capitolo saranno tratte le conclusioni sul lavoro
svolto e saranno elencati i possibili interventi futuri dai quali la ricerca appena iniziata del clustering statistico potrebbe crescere.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Manduchi, Gabriele
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
grid, clustering, statistical, clustering
Data di discussione della Tesi
27 Marzo 2014
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Manduchi, Gabriele
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
grid, clustering, statistical, clustering
Data di discussione della Tesi
27 Marzo 2014
URI
Statistica sui download
Gestione del documento: