Davrieux, Sebastian
(2017)
Studio e realizzazione di un sistema per la Sentiment Analysis basato su reti neurali ?deep?
[Laurea magistrale], Università di Bologna, Corso di Studio in
Informatica [LM-DM270], Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore.
(
Contatta l'autore)
Abstract
Questo lavoro di tesi ha portato alla realizzazione di un sistema di polarity classification per Twitter in lingua italiana. Dato un insieme di keyword, l'obiettivo posto era quello di effettuare la ricerca ed il recupero di tweet inerenti, analizzare i risultati definendo la polarità di ogni tweet e mostrarli graficamente all'utente; ponendo particolare attenzione alla qualità dell'analisi dei tweet ed affidando il recupero e la visualizzazione grafica a sistemi esistenti.
Gli studi e gli approfondimenti effettuati hanno portato alla realizzazione di un sistema di classificazione supervisionato. Il primo passo del sistema implementato consiste in un preprocessing che sfrutta le caratteristiche intrinsiche di Twitter: emoticons, emoji, hashtag, ecc. Una volta terminato il preprocessing, i tweet sono stati rappresentati vettorialmente utilizzando il metodo Paragraph Vector, nello specifico l'implementazione Doc2Vec presente nella libreria Gensim. La classificazione avviene utilizzando due Convolutional Neural Network (CNN), la prima determina se un tweet è positivo o no e la seconda agisce nello stesso modo, ma determinando se è negativo o meno. In questo modo i tweet, mediante la combinazione dei risultati di entrambi i classificatori, vengono divisi in quattro categorie: positivo, negativo, neutro e misto
La valutazione del sistema è stata effettuata utilizzando i tweet di addestramento e test, forniti nella campagna di valutazione EVALITA 2016. L'idea implementata è innovativa, dato che non è mai stato presentato ad EVALITA un sistema che unisse il risultato di un modello Doc2Vec con un classificatore CNN. Il modello implementato si sarebbe classificato in seconda posizione, dimostrando le sue ottime prestazioni.
Abstract
Questo lavoro di tesi ha portato alla realizzazione di un sistema di polarity classification per Twitter in lingua italiana. Dato un insieme di keyword, l'obiettivo posto era quello di effettuare la ricerca ed il recupero di tweet inerenti, analizzare i risultati definendo la polarità di ogni tweet e mostrarli graficamente all'utente; ponendo particolare attenzione alla qualità dell'analisi dei tweet ed affidando il recupero e la visualizzazione grafica a sistemi esistenti.
Gli studi e gli approfondimenti effettuati hanno portato alla realizzazione di un sistema di classificazione supervisionato. Il primo passo del sistema implementato consiste in un preprocessing che sfrutta le caratteristiche intrinsiche di Twitter: emoticons, emoji, hashtag, ecc. Una volta terminato il preprocessing, i tweet sono stati rappresentati vettorialmente utilizzando il metodo Paragraph Vector, nello specifico l'implementazione Doc2Vec presente nella libreria Gensim. La classificazione avviene utilizzando due Convolutional Neural Network (CNN), la prima determina se un tweet è positivo o no e la seconda agisce nello stesso modo, ma determinando se è negativo o meno. In questo modo i tweet, mediante la combinazione dei risultati di entrambi i classificatori, vengono divisi in quattro categorie: positivo, negativo, neutro e misto
La valutazione del sistema è stata effettuata utilizzando i tweet di addestramento e test, forniti nella campagna di valutazione EVALITA 2016. L'idea implementata è innovativa, dato che non è mai stato presentato ad EVALITA un sistema che unisse il risultato di un modello Doc2Vec con un classificatore CNN. Il modello implementato si sarebbe classificato in seconda posizione, dimostrando le sue ottime prestazioni.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Davrieux, Sebastian
Relatore della tesi
Scuola
Corso di studio
Indirizzo
Curriculum B: Informatica per il management
Ordinamento Cds
DM270
Parole chiave
sentiment analysis,polarity classification,twitter,machine learning,deep neural network,paragraph vector,evalita,convolutional neural network
Data di discussione della Tesi
20 Dicembre 2017
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Davrieux, Sebastian
Relatore della tesi
Scuola
Corso di studio
Indirizzo
Curriculum B: Informatica per il management
Ordinamento Cds
DM270
Parole chiave
sentiment analysis,polarity classification,twitter,machine learning,deep neural network,paragraph vector,evalita,convolutional neural network
Data di discussione della Tesi
20 Dicembre 2017
URI
Gestione del documento: