McGiver: Module Classifier using fine tuning Machine Learning techniques

Pitaro, Raffaele (2019) McGiver: Module Classifier using fine tuning Machine Learning techniques. [Laurea magistrale], Università di Bologna, Corso di Studio in Informatica [LM-DM270], Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore. (Contatta l'autore)

Abstract

La classificazione automatizzata di documenti digitalizzati in categorie predefinite ha sollevato un grande interesse fin dagli anni 2000. Questo è dovuto al sensibile aumento di documenti in formato digitale ed alla crescente necessità di dar loro un’organizzazione gerarchica. Inoltre, principalmente a causa della grande mole di documenti da categorizzare, negli ultimi anni si richiede che tale compito venga gestito in modo automatizzato. In ambito aziendale, queste problematiche vengono spesso affrontate mediante l’utilizzo di soluzioni “black box” proprietarie. Tali soluzioni si rivelano poco performanti poiché non sufficientemente personalizzabili da essere applicate a domini specifici (general purpose). In questo lavoro, ci occuperemo del problema della categorizzazione di documenti digitalizzati, nel settore della gestione della modulistica contabile. Il Machine Learning è stato largamente utilizzato nel processing di immagini degli ultimi anni grazie alla portabilità dei suoi risultati e capacità di produrre modelli affidabili anche a partire da una scarsa connoscenza del dominio di riferimento. Questa tesi inizia con lo stato dell’arte riguardo ai classificatori di categorie di documenti digitalizzati. In seguito viene descritto l’uso di tecniche di Machine Learning (DNNs) per Document Image Classification, con approfondimenti sull’architettura, il dataset e il modello utilizzato. Infine viene presentato McGiver, uno strumento per classificare documenti in categorie a partire dalla loro versione digitale. Viene quindi descritta ogni fase di implementazione e produzione dei risultati di validazione: preprocessing del dataset, addestramento e validazione. Infine, nell’ultimo capitolo vengono presentate, argomentando le stesse, alcune considerazioni sui risultati ottenuti e una discussione sui lavori futuri.

Abstract
Tipologia del documento
Tesi di laurea (Laurea magistrale)
Autore della tesi
Pitaro, Raffaele
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Indirizzo
Curriculum C: Sistemi e reti
Ordinamento Cds
DM270
Parole chiave
Machine Learning,Document Image Classifier,Deep Convolutional Neural Network,Transfer Learning
Data di discussione della Tesi
14 Marzo 2019
URI

Altri metadati

Gestione del documento: Visualizza il documento

^