Supporto all'Analisi Statistica basata su R in Ambiente Apache Spark

Flamigni, Bianca (2017) Supporto all'Analisi Statistica basata su R in Ambiente Apache Spark. [Laurea magistrale], Università di Bologna, Corso di Studio in Ingegneria informatica [LM-DM270], Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore. (Contatta l'autore)

Abstract

Le ultime tendenze nell’analisi di Big Data indicano il sempre più crescente bisogno di poter effettuare analisi interattiva su questi grandi dataset. Tipicamente si utilizza il linguaggio R per fare analisi avanzata sui dati, ma, a causa di limitazioni di livello tecnico, questo non è in grado di gestire Big Data in modo efficiente. Per tale motivo è stato ideato SparkR, un progetto, basato su Spark, per l’esecuzione distribuita di programmi in R scalabili e adatti a diversi tipi di carichi di lavoro. In questo documento, analizzeremo approfonditamente il progetto SparkR e ne osserveremo le prestazioni, a fronte di diverse applicazioni tipiche dell’analisi di Big Data (algoritmi di clustering e query interattive), in modo da poter identificare possibili limiti o colli di bottiglia e, grazie alla conoscenza acquisita, proporremo delle soluzioni in grado di ottenere buoni miglioramenti prestazionali. Tra queste, un componente che, sfruttando lo storico delle applicazioni lanciate, è capace di configurare in automatico alcune proprietà interne a Spark ed ottenere di conseguenza una riduzione nei tempi di esecuzione degli applicativi in R. Forniremo i risultati che dimostrano come grazie alla nostra proposta sia possibile ottenere un miglioramento del 18% rispetto alla configurazione di default di Spark. Infine, proporremo l’implementazione di un supporto efficiente e ben scalabile ad un algoritmo di clustering gerarchico, Bisecting K-means, e dimostreremo, tramite un’attenta valutazione delle prestazioni, come rappresenti un buon compromesso per garantire l’utilizzo di una tecnica così diffusa, come quella del clustering gerarchico, in un ambiente distribuito, nonostante algoritmi di questo genere siano noti per non essere particolarmente compatibili con un modello di programmazione tale.

Abstract
Tipologia del documento
Tesi di laurea (Laurea magistrale)
Autore della tesi
Flamigni, Bianca
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
spark,R,sparkr,sistemi distribuiti,big data,clustering,analisi statistica
Data di discussione della Tesi
14 Marzo 2017
URI

Altri metadati

Gestione del documento: Visualizza il documento

^