STRUMENTI DI NAVIGAZIONE

Progettazione di un sistema di analisi delle performance di Spark SQL

Longobardi, Luca (2018) Progettazione di un sistema di analisi delle performance di Spark SQL. [Laurea magistrale], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [LM-DM270] - Cesena

Salva citazione

Documenti full-text disponibili:

Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (2MB)

Abstract

I Big Data hanno imposto un cambiamento di paradigma nel modo in cui i dati vengono analizzati e processati. Il volume e la grande varietà dei dati hanno spinto inevitabilmente allo sviluppo di nuove soluzioni. In questo contesto Apache Hadoop è il framework che, negli ultimi anni, ha guadagnato grande popolarità sia tra le industrie sia tra i centri di ricerca. Tra gli strumenti che meglio si integrano ad Hadoop vi è Spark, una piattaforma di cluster computing che estende il popolare paradigma MapReduce per supportare in maniera efficiente diversi tipi di computazioni, come lo stream processing. Nonostante il sistema Hadoop e Spark siano già largamente adottati, essi risultano ancora grezzi e mancano di strumenti adatti a supporto di analisi di dati complesse. In particolare, il modulo Spark SQL non può essere considerato maturo come i tradizionali RDBMs, considerando che il suo componente di ottimizzazione, Catalyst, è tutt'ora rule-based. In questo contesto è stato sviluppato un modello di costo per Spark SQL, che copre l'intera classe delle query GPSJ, e che permette di calcolarne il tempo di esecuzione basandosi sulle statistiche relative alla base di dati e sulla configurazione di un cluster. Basandoci dunque sull'implementazione del modello sviluppata in una tesi precedente, abbiamo costruito un'applicazione per il tuning delle analisi di dati e della configurazione di un cluster. L'obiettivo della tesi è dunque lo sviluppo di un tool che metta a disposizione un insieme di funzionalità, facilmente accessibili ma al contempo estremamente potenti, che permettano all'utente di visualizzare e ottimizzare le performance di un determinato cluster e delle interrogazioni a cui è sottoposto.

Abstract

Tipologia del documento

Tesi di laurea (Laurea magistrale)

Autore della tesi

Longobardi, Luca

Relatore della tesi

Golfarelli, Matteo

Scuola

Ingegneria e Architettura

Corso di studio

Ingegneria e scienze informatiche [LM-DM270] - Cesena

Ordinamento Cds