Automatic generation of annotated datasets for industrial OCR

Spedicati, Marco (2019) Automatic generation of annotated datasets for industrial OCR. [Laurea magistrale], Università di Bologna, Corso di Studio in Automation engineering / ingegneria dell’automazione [LM-DM270], Documento ad accesso riservato.
Documenti full-text disponibili:
[img] Documento PDF (Thesis)
Full-text accessibile solo agli utenti istituzionali dell'Ateneo
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato

Download (21MB) | Contatta l'autore

Abstract

Machine learning algorithms need a lot of data, both for training and for testing. However, not always appropriate data are in fact available. This document presents the work that has been carried out at Datalogic USA’s laboratories in Eugene, Oregon, USA, to create data for industrial Optical Character Recognition (OCR) applications. It describes the automatic sys- tem that has been built. The images are created by printing and capturing strings of a variable layout, and they are ground truthed in a later stage, in an automatic way. Two datasets are generated, of which one is employed to asses a network’s performance.

Abstract
Tipologia del documento
Tesi di laurea (Laurea magistrale)
Autore della tesi
Spedicati, Marco
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
ground truth,dataset,annotated dataset,OCR,neural networks,varied data
Data di discussione della Tesi
7 Febbraio 2019
URI

Altri metadati

Statistica sui download

Gestione del documento: Visualizza il documento

^