Spedicati, Marco
(2019)
Automatic generation of annotated datasets for industrial OCR.
[Laurea magistrale], Università di Bologna, Corso di Studio in Automation engineering / ingegneria dell’automazione [LM-DM270], Documento ad accesso riservato.
Documenti full-text disponibili:
Documento PDF (Thesis)
Full-text accessibile solo agli utenti istituzionali dell'Ateneo Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato Download (21MB) | Contatta l'autore |
Abstract
Machine learning algorithms need a lot of data, both for training and for testing. However, not always appropriate data are in fact available. This document presents the work that has been carried out at Datalogic USA’s laboratories in Eugene, Oregon, USA, to create data for industrial Optical Character Recognition (OCR) applications. It describes the automatic sys- tem that has been built. The images are created by printing and capturing strings of a variable layout, and they are ground truthed in a later stage, in an automatic way. Two datasets are generated, of which one is employed to asses a network’s performance.
Abstract