Embeddings for text classification with recurrent neural networks

Sarti, Paolo (2018) Embeddings for text classification with recurrent neural networks. [Laurea magistrale], Università di Bologna, Corso di Studio in Ingegneria informatica [LM-DM270], Documento full-text non disponibile

Salva citazione

Il full-text non è disponibile per scelta dell'autore. (Contatta l'autore)

Abstract

L'importanza di metodi automatici per la classificazione ed estrazione di informazioni da testi è cresciuta significativamente negli ultimi anni, a causa della produzione sempre maggiore di questo tipo di dati, specialmente tramite piattaforme web. Questo ha portato allo sviluppo di nuovi algoritmi per analizzare testi non strutturati. Le tecniche di "Embedding", che associano parole o parti di testo di lunghezza variabile a vettori di dimensione fissa mantenendo relazioni di similarità semantica, sono state un grande progresso per il campo del "Natural Language Processing". Inoltre, avanzamenti nelle tecniche di Deep Learning hanno migliorato significativamente la classificazione del testo, grazie agli affinamenti delle architetture delle reti neurali ricorrenti, in grado di processare sequenze di dimensioni variabili. Lo scopo di questo lavoro è stata la realizzazione di un prototipo che utilizzasse le tecniche citate per classificare documenti ed estrarre parti di testo. Il dominio di riferimento era composto da documenti amministrativi redatti da notai. Per la classificazione sono state utilizzate reti ricorrenti di tipo LSTM, e due tipologie di "embedding": a livello di parole ed a livello di frase. La prima tecnica è risultata più performante sull'insieme dei documenti di test, raggiungendo il 98,8% di accuratezza, mentre la seconda si è fermata al 96,7%. L'estrazione di parti rilevanti del testo è stata impostata come un problema di classificazione multi classe a livello della singola frase, utilizzando "word embedding" e reti ricorrenti LSTM. Complessivamente l'accuratezza ha raggiunto l'85,5% sull'insieme di test, mostrando però risultati non uniformi sulle singole classi. Tuttavia, si è rilevata una confusione ridotta tra le classi che rappresentavano le informazioni da estrarre. I modelli predittivi sono stati integrati in un prototipo, che ha permesso di verificare anche qualitativamente le buone prestazioni delle tecniche impiegate.

Abstract

Tipologia del documento

Tesi di laurea (Laurea magistrale)

Autore della tesi

Sarti, Paolo

Relatore della tesi

Sartori, Claudio

Correlatore della tesi

Chiarini, Alessandro ; Paganelli, Luca

Scuola

Ingegneria e Architettura

Corso di studio