Studio e implementazione di un sistema ensemble per il parsing dell'italiano

Antonelli, Oronzo (2018) Studio e implementazione di un sistema ensemble per il parsing dell'italiano. [Laurea magistrale], Università di Bologna, Corso di Studio in Informatica [LM-DM270]

Salva citazione

Documenti full-text disponibili:

Documento PDF (Thesis)
Disponibile con Licenza: Creative Commons: Attribuzione - Non commerciale - Condividi allo stesso modo 3.0 (CC BY-NC-SA 3.0)
Download (731kB)

Abstract

In questo lavoro di tesi sono state valutate le prestazioni di otto parser che considerano modelli di analisi sintattica dipendente con un'architettura basata su reti neurali deep. Utilizzando due corpora in lingua italiana presenti nelle Universal Dependencies, uno di dominio generico e l'altro di dominio social media, nello specifico Twitter, si è sperimentato come l'apprendimento dal corpus di dominio social media porta ad un significativo incremento dell'accuratezza di parsing rispetto all'apprendimento dal corpus di dominio generico, entrambi valutati sul dominio social media. Inoltre, si è mostrato come utilizzando più dati nel corpus di apprendimento, inclusi i dati di dominio, si riesce ad ottenere un ulteriore miglioramento delle prestazioni dei parser. In seguito, utilizzando i modelli di parsing già appresi, si sono sperimentate differenti tecniche di ensemble allo scopo di combinare i modelli e le predizioni dei singoli parser per migliorare le prestazioni dei singoli modelli e superare la valutazione del miglior parser singolo ottenuto in precedenza. Dai risultati è emerso che utilizzare modelli combinati per il dominio social media fornisce un significativo incremento delle prestazioni rispetto ai tesi di dominio generico.

Abstract

Tipologia del documento

Tesi di laurea (Laurea magistrale)

Autore della tesi

Antonelli, Oronzo

Relatore della tesi

Tamburini, Fabio

Scuola

Scienze

Corso di studio

Informatica [LM-DM270]

Indirizzo