Tecnologie per la gestione di big data: analisi della piattaforma Hadoop

Giunchi, Massimiliano (2017) Tecnologie per la gestione di big data: analisi della piattaforma Hadoop. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena, Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore. (Contatta l'autore)

Abstract

L’obiettivo del lavoro di tesi è approfondire i Big Data e le tecnologie idonee a trattarli con uno specifico focus su Hadoop, nonché eseguire una sperimentazione che concretizzi quanto esposto nei primi due punti. Per quel che concerne i Big Data è stata effettuata una panoramica delle principali caratteristiche, delle fonti che li generano e delle opportunità che offrono. Riguardo alle tecnologie che permettono di memorizzare ed elaborare Big Data, sono state analizzate alcune soluzioni offerte dal mercato: in questo ambito la più diffusa è rappresentata dalla piattaforma Hadoop implementata con varie modalità. Sono stati illustrati anche altri sistemi alternativi per la gestione dei Big Data quali i DBMS NoSQL. Il lavoro è proseguito con l’analisi dettagliata di Hadoop ossia il suo file system distribuito HDFS, il paradigma MapReduce e YARN che è il gestore delle risorse. La parte sperimentale è avvenuta in parallelo allo studio teorico: il primo passo è stato quello di installare Hadoop su un cluster. Poiché lo scopo consisteva nell’analizzare un set di dati proveniente da una tipica fonte di Big Data, la scelta in questo caso è ricaduta su Twitter e l’analisi che si è intrapresa è stata di sentiment analysis. Ciò ha comportato l’impiego di uno strumento per intercettare i dati, uno per elaborarli e successivamente uno per classificarli: Flume e Hive hanno reso possibile i primi due passi, mentre per compiere la classificazione si è ricorso ad un classificatore bayesiano-naif. Mahout è la libreria del framework che contiene alcuni algoritmi di machine learning tra cui anche quelli per la classificazione. Il lavoro è proseguito con la spiegazione del modello VSM per la rappresentazione dei documenti in formato vettoriale, dell’algortimo TF-IDF per la corretta attribuzione dei pesi al dizionario costruito e degli indici statistici necessari per valutare le prestazioni del classificatore. Infine sono stati mostrati i risultati ottenuti sui set di dati acquisiti.

Abstract
Tipologia del documento
Tesi di laurea (Laurea)
Autore della tesi
Giunchi, Massimiliano
Relatore della tesi
Scuola
Corso di studio
Indirizzo
Curriculum ingegneria informatica
Ordinamento Cds
DM270
Parole chiave
big data,haddop,hive,mahout,flume,mapreduce,sentiment analysis,naive bayes classifier,Twitter
Data di discussione della Tesi
16 Marzo 2017
URI

Altri metadati

Gestione del documento: Visualizza il documento

^