Palummo, Alexandra Lina
(2016)
Supporto SQL al sistema Hadoop per big data analytics.
[Laurea], Università di Bologna, Corso di Studio in
Ingegneria gestionale [L-DM270], Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore.
(
Contatta l'autore)
Abstract
Negli ultimi anni, si sta parlando sempre più spesso di Big Data, riferendosi non solo a grandi moli di dati generati da diversi fenomeni come l’esplosione delle reti sociali e l’accelerazione senza precedenti dello sviluppo tecnologico, ma l'espressione riguarda alcune nuove necessità e le conseguenti sfide, dette delle Tre V: Volume, Velocità e Varietà. Per poter analizzare ed estrarre informazioni da questi grandi volumi di dati, sono state sviluppate risorse e tecnologie differenti dai sistemi convenzionali di immagazzinamento e gestione dei dati. Una delle tecnologie che ha avuto maggior successo è rappresentata da Apache Hadoop, un framework Open Source di Apache. In questo elaborato viene illustrata una panoramica di Hadoop, concepito per offrire supporto ad applicazioni distribuite e semplificare le operazioni di storage e gestione di dataset di grandi dimensioni, fornendo una alternativa ai DBMS relazionali poco adatti alle trasformazioni dei Big Data. Hadoop fornisce inoltre strumenti in grado di analizzare e processare una grande quantità di informazioni, tra i quali Hive, Impala e BigSQL 3.0, descritti nella seconda parte dell’elaborato. Confrontando le prestazioni di questi tre sistemi mediante un esperimento, condotto sul benchmark TPC-DS su piattaforma Hadoop, è stato evidenziato come BigSQL 3.0 riesce ad ottenere le prestazioni migliori.
Abstract
Negli ultimi anni, si sta parlando sempre più spesso di Big Data, riferendosi non solo a grandi moli di dati generati da diversi fenomeni come l’esplosione delle reti sociali e l’accelerazione senza precedenti dello sviluppo tecnologico, ma l'espressione riguarda alcune nuove necessità e le conseguenti sfide, dette delle Tre V: Volume, Velocità e Varietà. Per poter analizzare ed estrarre informazioni da questi grandi volumi di dati, sono state sviluppate risorse e tecnologie differenti dai sistemi convenzionali di immagazzinamento e gestione dei dati. Una delle tecnologie che ha avuto maggior successo è rappresentata da Apache Hadoop, un framework Open Source di Apache. In questo elaborato viene illustrata una panoramica di Hadoop, concepito per offrire supporto ad applicazioni distribuite e semplificare le operazioni di storage e gestione di dataset di grandi dimensioni, fornendo una alternativa ai DBMS relazionali poco adatti alle trasformazioni dei Big Data. Hadoop fornisce inoltre strumenti in grado di analizzare e processare una grande quantità di informazioni, tra i quali Hive, Impala e BigSQL 3.0, descritti nella seconda parte dell’elaborato. Confrontando le prestazioni di questi tre sistemi mediante un esperimento, condotto sul benchmark TPC-DS su piattaforma Hadoop, è stato evidenziato come BigSQL 3.0 riesce ad ottenere le prestazioni migliori.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Palummo, Alexandra Lina
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Big Data,Hadoop,Tecnologie SQL-on-Hadoop,Hive,Impala,BigSQL 3.0
Data di discussione della Tesi
19 Dicembre 2016
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Palummo, Alexandra Lina
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Big Data,Hadoop,Tecnologie SQL-on-Hadoop,Hive,Impala,BigSQL 3.0
Data di discussione della Tesi
19 Dicembre 2016
URI
Gestione del documento: