Zanotti, Andrea
 
(2016)
Supporto a query geografiche efficienti su dati spaziali in ambiente Apache Spark.
[Laurea magistrale], Università di Bologna, Corso di Studio in 
Ingegneria informatica [LM-DM270], Documento full-text non disponibile
  
 
  
  
        
        
	
  
  
  
  
  
  
  
    
      Il full-text non è disponibile per scelta dell'autore.
      
        (
Contatta l'autore)
      
    
  
    
  
  
    
      Abstract
      La tesi illustra la progettazione e implementazione di un supporto basato su tecnologia Apache Spark per l'analisi di dati di posizionamento in ambito Big Data. Dopo aver analizzato tre estensioni specifiche per il trattamento di dati geografici si è deciso di utilizzare il framework GeoSpark. Al suo interno è stata inserita la tecnica di clustering basata su densità DBSCAN ottimizzata per il funzionamento in architettura distribuita. È presente anche un layer dedicato all'ottimizzazione automatica per la configurazione dei parametri relativi al partizionamento del database sul cluster. Sono stati eseguiti test di funzionamento e integrazione per verificare il corretto comportamento delle funzionalità offerte e dimostrare l'integrazione con quelle già presenti. Infine è stata realizzata una sessione di test dedicata all'analisi delle prestazioni attraverso il servizio di cloud computing Amazon Web Services in particolare Amazon EMR. In questo capitolo la nostra soluzione è stata paragonata ad una precedente basata su tecnologia MongoDB per confrontarne le performance. Come dimostrato dai risultati sperimentali, il nostro supporto risulta essere computazionalmente più veloce e ottimizzato.
     
    
      Abstract
      La tesi illustra la progettazione e implementazione di un supporto basato su tecnologia Apache Spark per l'analisi di dati di posizionamento in ambito Big Data. Dopo aver analizzato tre estensioni specifiche per il trattamento di dati geografici si è deciso di utilizzare il framework GeoSpark. Al suo interno è stata inserita la tecnica di clustering basata su densità DBSCAN ottimizzata per il funzionamento in architettura distribuita. È presente anche un layer dedicato all'ottimizzazione automatica per la configurazione dei parametri relativi al partizionamento del database sul cluster. Sono stati eseguiti test di funzionamento e integrazione per verificare il corretto comportamento delle funzionalità offerte e dimostrare l'integrazione con quelle già presenti. Infine è stata realizzata una sessione di test dedicata all'analisi delle prestazioni attraverso il servizio di cloud computing Amazon Web Services in particolare Amazon EMR. In questo capitolo la nostra soluzione è stata paragonata ad una precedente basata su tecnologia MongoDB per confrontarne le performance. Come dimostrato dai risultati sperimentali, il nostro supporto risulta essere computazionalmente più veloce e ottimizzato.
     
  
  
    
    
      Tipologia del documento
      Tesi di laurea
(Laurea magistrale)
      
      
      
      
        
      
        
          Autore della tesi
          Zanotti, Andrea
          
        
      
        
          Relatore della tesi
          
          
        
      
        
          Correlatore della tesi
          
          
        
      
        
          Scuola
          
          
        
      
        
          Corso di studio
          
          
        
      
        
      
        
      
        
          Ordinamento Cds
          DM270
          
        
      
        
          Parole chiave
          Apache Spark,Clustering DBSCAN,GeoSpark,query geografiche,BigData,Amazon Web Services,Amazon EMR,Ganglia
          
        
      
        
          Data di discussione della Tesi
          19 Dicembre 2016
          
        
      
      URI
      
      
     
   
  
    Altri metadati
    
      Tipologia del documento
      Tesi di laurea
(NON SPECIFICATO)
      
      
      
      
        
      
        
          Autore della tesi
          Zanotti, Andrea
          
        
      
        
          Relatore della tesi
          
          
        
      
        
          Correlatore della tesi
          
          
        
      
        
          Scuola
          
          
        
      
        
          Corso di studio
          
          
        
      
        
      
        
      
        
          Ordinamento Cds
          DM270
          
        
      
        
          Parole chiave
          Apache Spark,Clustering DBSCAN,GeoSpark,query geografiche,BigData,Amazon Web Services,Amazon EMR,Ganglia
          
        
      
        
          Data di discussione della Tesi
          19 Dicembre 2016
          
        
      
      URI
      
      
     
   
  
  
  
  
  
  
    
      Gestione del documento: