Tribotti, Andrea
(2024)
Analisi Computazionale dei dati nel
“caso Enron”: Metodi e Risultati.
[Laurea], Università di Bologna, Corso di Studio in
Matematica [L-DM270], Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore.
(
Contatta l'autore)
Abstract
Questa tesi esplora l'analisi computazionale dei dati del caso Enron, utilizzando vari metodi e strumenti di analisi dei dati. L'obiettivo principale è stato quello di estrarre informazioni rilevanti da un vasto dataset testuale e di ottenere una comprensione approfondita delle strutture e dei temi nascosti nei dati.
Il lavoro si è concentrato sull'applicazione di tecniche di Information Retrieval per recuperare rapidamente informazioni rilevanti, migliorando l'accessibilità e l'usabilità dei dati. Inoltre, l'uso del metodo delle k-medie, supportato dall'indice di Calinski-Harabasz e dal metodo del gomito, ha permesso di identificare il numero ottimale di cluster e di analizzare le parole chiave e i temi principali di ciascun cluster.
L'approccio basato sull'analisi delle Componenti Principali nei Vettori Singolari Destri e il confronto del metodo LSQR con la regressione SVD hanno ulteriormente rafforzato la validità dei risultati ottenuti, confermando la robustezza delle tecniche utilizzate.
In conclusione, questa tesi dimostra come l'integrazione di diverse metodologie di analisi dei dati possa offrire una comprensione approfondita e sfaccettata di un vasto dataset testuale, aprendo la strada a future ricerche e applicazioni in vari domini.
Abstract
Questa tesi esplora l'analisi computazionale dei dati del caso Enron, utilizzando vari metodi e strumenti di analisi dei dati. L'obiettivo principale è stato quello di estrarre informazioni rilevanti da un vasto dataset testuale e di ottenere una comprensione approfondita delle strutture e dei temi nascosti nei dati.
Il lavoro si è concentrato sull'applicazione di tecniche di Information Retrieval per recuperare rapidamente informazioni rilevanti, migliorando l'accessibilità e l'usabilità dei dati. Inoltre, l'uso del metodo delle k-medie, supportato dall'indice di Calinski-Harabasz e dal metodo del gomito, ha permesso di identificare il numero ottimale di cluster e di analizzare le parole chiave e i temi principali di ciascun cluster.
L'approccio basato sull'analisi delle Componenti Principali nei Vettori Singolari Destri e il confronto del metodo LSQR con la regressione SVD hanno ulteriormente rafforzato la validità dei risultati ottenuti, confermando la robustezza delle tecniche utilizzate.
In conclusione, questa tesi dimostra come l'integrazione di diverse metodologie di analisi dei dati possa offrire una comprensione approfondita e sfaccettata di un vasto dataset testuale, aprendo la strada a future ricerche e applicazioni in vari domini.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Tribotti, Andrea
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Analisi computazionale,Enron,MATLAB,email,dataset,parole chaive,Information Retrieval,QR,LSQR,SVD,SVD regression,Clustering,Metodi di connessione,k-medie,Calinski-Harabasz,Multidimensional scaling
Data di discussione della Tesi
28 Giugno 2024
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Tribotti, Andrea
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Analisi computazionale,Enron,MATLAB,email,dataset,parole chaive,Information Retrieval,QR,LSQR,SVD,SVD regression,Clustering,Metodi di connessione,k-medie,Calinski-Harabasz,Multidimensional scaling
Data di discussione della Tesi
28 Giugno 2024
URI
Gestione del documento: