Gestione di un data lake strutturato attraverso il riconoscimento semantico dei dati acquisiti

Leoni, Anna Giulia (2019) Gestione di un data lake strutturato attraverso il riconoscimento semantico dei dati acquisiti. [Laurea magistrale], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [LM-DM270] - Cesena
Documenti full-text disponibili:
[img] Documento PDF (Thesis)
Disponibile con Licenza: Creative Commons Attribuzione - Non commerciale - Condividi allo stesso modo 3.0

Download (2MB)

Abstract

Negli ultimi anni si è assistito ad un incremento smisurato nella generazione di dati che ha dato vita al fenomeno dei Big Data. Le caratteristiche attribuite a questi dati hanno evidenziato la necessità di riorganizzare i processi aziendali e di sviluppare nuove soluzioni che permettessero di cogliere le opportunità dei Big Data e di controllare la complessità derivante dalla loro gestione. Per rispondere a quest'esigenza ci si è rivolti all'utilizzo di framework basati su architetture parallele ma, senza definire un'organizzazione interna al Data Lake (repository in cui i dati vengono memorizzati) ed adeguate politiche di governance, abilitate da una solida base di metadati, c'è il rischio che il valore dei dati vada perdendosi e che i dati diventino difficilmente reperibili all'interno del repository. Il prototipo di tesi è basato su un caso di studio aziendale ed è volto a predisporre i sistemi aziendali ad una corretta gestione futura dei Big Data. Il suo obiettivo è sviluppare un approccio estendibile e parametrizzabile che permetta di indicizzare, nella maniera più automatica possibile, i singoli file presenti nel Data Lake sulla base del loro tipo di evento tramite l'estrazione di metadati strutturali, di processo e semantici, che consentano e facilitino il recupero dei file quando rilevanti rispetto a determinate interrogazioni. I file che il caso di studio prende in esame sono file XML che fanno riferimento ad eventi generati in ambito sanitario. Per portare a termine quest'obiettivo viene definita un'architettura per Data Lake ed un modello per l'archiviazione di metadati, realizzato come ontologia. Le funzionalità del prototipo, come tarare i parametri del processo di estrazione e visualizzare i risultati, sono disponibili tramite un'interfaccia web.

Abstract
Tipologia del documento
Tesi di laurea (Laurea magistrale)
Autore della tesi
Leoni, Anna Giulia
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Big Data,Data Lake,Metadati,Web Semantico,ontologie
Data di discussione della Tesi
21 Marzo 2019
URI

Altri metadati

Statistica sui download

Gestione del documento: Visualizza il documento

^