Documenti full-text disponibili:
|
Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (2MB)
|
Abstract
I Big Data hanno imposto un cambiamento di paradigma nel modo in cui i dati vengono analizzati e processati. Il volume e la grande varietà dei dati hanno spinto inevitabilmente allo sviluppo di nuove soluzioni. In questo contesto Apache Hadoop è il framework che, negli ultimi anni, ha guadagnato grande popolarità sia tra le industrie sia tra i centri di ricerca. Tra gli strumenti che meglio si integrano ad Hadoop vi è Spark, una piattaforma di cluster computing che estende il popolare paradigma MapReduce per supportare in maniera efficiente diversi tipi di computazioni, come lo stream processing. Nonostante il sistema Hadoop e Spark siano già largamente adottati, essi risultano ancora grezzi e mancano di strumenti adatti a supporto di analisi di dati complesse. In particolare, il modulo Spark SQL non può essere considerato maturo come i tradizionali RDBMs, considerando che il suo componente di ottimizzazione, Catalyst, è tutt'ora rule-based. In questo contesto è stato sviluppato un modello di costo per Spark SQL, che copre l'intera classe delle query GPSJ, e che permette di calcolarne il tempo di esecuzione basandosi sulle statistiche relative alla base di dati e sulla configurazione di un cluster. Basandoci dunque sull'implementazione del modello sviluppata in una tesi precedente, abbiamo costruito un'applicazione per il tuning delle analisi di dati e della configurazione di un cluster. L'obiettivo della tesi è dunque lo sviluppo di un tool che metta a disposizione un insieme di funzionalità, facilmente accessibili ma al contempo estremamente potenti, che permettano all'utente di visualizzare e ottimizzare le performance di un determinato cluster e delle interrogazioni a cui è sottoposto.
Abstract
I Big Data hanno imposto un cambiamento di paradigma nel modo in cui i dati vengono analizzati e processati. Il volume e la grande varietà dei dati hanno spinto inevitabilmente allo sviluppo di nuove soluzioni. In questo contesto Apache Hadoop è il framework che, negli ultimi anni, ha guadagnato grande popolarità sia tra le industrie sia tra i centri di ricerca. Tra gli strumenti che meglio si integrano ad Hadoop vi è Spark, una piattaforma di cluster computing che estende il popolare paradigma MapReduce per supportare in maniera efficiente diversi tipi di computazioni, come lo stream processing. Nonostante il sistema Hadoop e Spark siano già largamente adottati, essi risultano ancora grezzi e mancano di strumenti adatti a supporto di analisi di dati complesse. In particolare, il modulo Spark SQL non può essere considerato maturo come i tradizionali RDBMs, considerando che il suo componente di ottimizzazione, Catalyst, è tutt'ora rule-based. In questo contesto è stato sviluppato un modello di costo per Spark SQL, che copre l'intera classe delle query GPSJ, e che permette di calcolarne il tempo di esecuzione basandosi sulle statistiche relative alla base di dati e sulla configurazione di un cluster. Basandoci dunque sull'implementazione del modello sviluppata in una tesi precedente, abbiamo costruito un'applicazione per il tuning delle analisi di dati e della configurazione di un cluster. L'obiettivo della tesi è dunque lo sviluppo di un tool che metta a disposizione un insieme di funzionalità, facilmente accessibili ma al contempo estremamente potenti, che permettano all'utente di visualizzare e ottimizzare le performance di un determinato cluster e delle interrogazioni a cui è sottoposto.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Longobardi, Luca
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Hadoop,Spark,SparkSQL,Modello di Costo
Data di discussione della Tesi
22 Marzo 2018
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Longobardi, Luca
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Hadoop,Spark,SparkSQL,Modello di Costo
Data di discussione della Tesi
22 Marzo 2018
URI
Statistica sui download
Gestione del documento: