Costruzione di un corpus parallelo multilingue tramite web scraping

Babini, Stefano (2023) Costruzione di un corpus parallelo multilingue tramite web scraping. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena, Documento ad accesso riservato.
Documenti full-text disponibili:
[img] Documento PDF (Thesis)
Full-text accessibile solo agli utenti istituzionali dell'Ateneo
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato

Download (1MB) | Contatta l'autore

Abstract

Negli ultimi anni, il campo della linguistica computazionale ha fatto enormi progressi grazie alla crescente disponibilità di grandi quantità di dati testuali e alla rapidità di elaborazione dei computer. In particolare, la costruzione di corpora paralleli costituisce uno dei principali obiettivi di molti ricercatori, al fine di poter analizzare in modo accurato e dettagliato le caratteristiche di diverse lingue. Un corpus parallelo è un insieme di testi in due o più lingue diverse che sono allineati in modo da consentire la comparazione tra di essi. Tale allineamento può essere fatto a livello di parola, di frase o di documento. L'obiettivo di questa tesi è quello di creare un corpus di dimensioni adeguate e di alta qualità, che possa essere utilizzato per una vasta gamma di applicazioni linguistiche, come l'analisi della traduzione automatica e l'identificazione delle differenze linguistiche tra le due lingue. Per la costruzione del corpus parallelo, verranno utilizzati diversi tipi di trascrizioni ambiti differenti, tra cui, filosofia, musica, arte, storia, statistica e molti altri. I testi verranno selezionati in modo da coprire una vasta gamma di argomenti, al fine di creare un corpus il più rappresentativo possibile delle lingue. Per reperire i dati utilizzati poi per costruire il parallel corpus verranno utilizzate tecniche di web scraping al fine di automatizzare la raccolta e la catalogazione di grandi quantità di dati. Questa tecnica ha dimostrato di essere molto utile in molti campi, il monitoraggio dei prezzi, la raccolta di informazioni per la ricerca di mercato e la creazione di basi di dati. Successivamente i dati raccolti saranno elaborati ed allineati e sarà utilizzato come criterio di allineamento i caratteri di punteggiatura. Infine, il risultato verrà salvato in un database.

Abstract
Tipologia del documento
Tesi di laurea (Laurea)
Autore della tesi
Babini, Stefano
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
parallel corpus,web scraping,NMT,SMT
Data di discussione della Tesi
17 Marzo 2023
URI

Altri metadati

Statistica sui download

Gestione del documento: Visualizza il documento

^