Antonelli, Oronzo
(2018)
Studio e implementazione di un sistema ensemble per il parsing dell'italiano.
[Laurea magistrale], Università di Bologna, Corso di Studio in
Informatica [LM-DM270]
Documenti full-text disponibili:
Abstract
In questo lavoro di tesi sono state valutate le prestazioni di otto parser che considerano modelli di analisi sintattica dipendente con un'architettura basata su reti neurali deep. Utilizzando due corpora in lingua italiana presenti nelle Universal Dependencies, uno di dominio generico e l'altro di dominio social media, nello specifico Twitter, si è sperimentato come l'apprendimento dal corpus di dominio social media porta ad un significativo incremento dell'accuratezza di parsing rispetto all'apprendimento dal corpus di dominio generico, entrambi valutati sul dominio social media. Inoltre, si è mostrato come utilizzando più dati nel corpus di apprendimento, inclusi i dati di dominio, si riesce ad ottenere un ulteriore miglioramento delle prestazioni dei parser. In seguito, utilizzando i modelli di parsing già appresi, si sono sperimentate differenti tecniche di ensemble allo scopo di combinare i modelli e le predizioni dei singoli parser per migliorare le prestazioni dei singoli modelli e superare la valutazione del miglior parser singolo ottenuto in precedenza. Dai risultati è emerso che utilizzare modelli combinati per il dominio social media fornisce un significativo incremento delle prestazioni rispetto ai tesi di dominio generico.
Abstract
In questo lavoro di tesi sono state valutate le prestazioni di otto parser che considerano modelli di analisi sintattica dipendente con un'architettura basata su reti neurali deep. Utilizzando due corpora in lingua italiana presenti nelle Universal Dependencies, uno di dominio generico e l'altro di dominio social media, nello specifico Twitter, si è sperimentato come l'apprendimento dal corpus di dominio social media porta ad un significativo incremento dell'accuratezza di parsing rispetto all'apprendimento dal corpus di dominio generico, entrambi valutati sul dominio social media. Inoltre, si è mostrato come utilizzando più dati nel corpus di apprendimento, inclusi i dati di dominio, si riesce ad ottenere un ulteriore miglioramento delle prestazioni dei parser. In seguito, utilizzando i modelli di parsing già appresi, si sono sperimentate differenti tecniche di ensemble allo scopo di combinare i modelli e le predizioni dei singoli parser per migliorare le prestazioni dei singoli modelli e superare la valutazione del miglior parser singolo ottenuto in precedenza. Dai risultati è emerso che utilizzare modelli combinati per il dominio social media fornisce un significativo incremento delle prestazioni rispetto ai tesi di dominio generico.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Antonelli, Oronzo
Relatore della tesi
Scuola
Corso di studio
Indirizzo
Curriculum A: Linguaggi e fondamenti
Ordinamento Cds
DM270
Parole chiave
Natural Language Processing,Parsing,Ensemble,Universal Dependencies,Deep Neural Networks,Social Media Processing
Data di discussione della Tesi
18 Luglio 2018
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Antonelli, Oronzo
Relatore della tesi
Scuola
Corso di studio
Indirizzo
Curriculum A: Linguaggi e fondamenti
Ordinamento Cds
DM270
Parole chiave
Natural Language Processing,Parsing,Ensemble,Universal Dependencies,Deep Neural Networks,Social Media Processing
Data di discussione della Tesi
18 Luglio 2018
URI
Statistica sui download
Gestione del documento: