Un sistema per l'acquisizione automatica dei metadati per SparkSQL

Nemati, Shapour (2018) Un sistema per l'acquisizione automatica dei metadati per SparkSQL. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena

Salva citazione

Documenti full-text disponibili:

Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (2MB)

Abstract

Le piattaforme Big Data sono di importanza crescente, ma le applicazioni ed i framework a disposizione non hanno ancora raggiunto gradi di robustezza comparabili ai sistemi classici. Il progetto di tesi integra un modello di costo per query in SparkSQL, fornendo un sistema per l'automattizzazione della raccolta dei metadati necessari a calcolare i tempi di esecuzione dei piani fisici possibili. Si tratta di un importante passo avanti verso l'adozione di ottimizzatori basati su dati e statistiche anche in Catalyst, componente di SparkSQL. Precedentemente al lavoro di tesi è stata sviluppata SparkTune, applicazione web per applicare il modello di costo previo inserimento dei dati necessari. Tali dati sono complessi, provengono da diverse fonti, e non tutti gli utenti sono in grado di reperirli correttamente, pertanto l'integrazione del sistema per l'acquisizione automatica dei metadati risulta fondamentale per un corretto utilizzo dell'applicazione.

Abstract

Tipologia del documento

Tesi di laurea (Laurea)

Autore della tesi

Nemati, Shapour

Relatore della tesi

Golfarelli, Matteo

Correlatore della tesi

Gallinucci, Enrico

Scuola

Scienze

Corso di studio