Fiorentino, Giancarlo
(2021)
Terminologia basata su corpora ed estrazione terminologica automatica: costruzione di una termbase inglese-italiano nel dominio COVID-19.
[Laurea magistrale], Università di Bologna, Corso di Studio in
Specialized translation [LM-DM270] - Forli', Documento ad accesso riservato.
Documenti full-text disponibili:
|
Documento PDF (Thesis)
Full-text accessibile solo agli utenti istituzionali dell'Ateneo
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (2MB)
| Contatta l'autore
|
Abstract
A seguito dello scoppio della pandemia globale di COVID-19, iniziative come TICO-19, partnership pubblico-privata volta a rendere disponibili memorie di traduzione e strumenti per lo sviluppo di sistemi di traduzione automatica, hanno cercato di stimolare la coordinazione internazionale per favorire la produzione di risorse traduttive dedicate al dominio della malattia in più lingue possibili.
Nell'ottica di inserirsi in questo solco, il progetto si prefigge di costruire una termbase che copra il dominio COVID-19 nella combinazione linguistica inglese-italiano. La termbase è composta di unità terminologiche estratte sia manualmente che automaticamente.
Il ricorso all'estrazione terminologica automatica è stato dettato dal secondo obiettivo della tesi: valutare le potenzialità di Almaligner, software di estrazione terminologica automatica attualmente in fase di sviluppo. Il programma è in grado di diminuire drasticamente i tempi dell'identificazione dei candidati termini, il che può rappresentare un'abilità chiave in situazioni emergenziali in cui il tempo è prezioso.
Come prima cosa, Almaligner è stato utilizzato per estrarre una lista di candidati termini bilingue da sottoporre a un processo di validazione manuale. Mediante la validazione è stato possibile identificare i problemi ricorrenti e formulare una serie di proposte che permettessero di risolverli sfruttando funzioni preesistenti o che verranno implementate con aggiornamenti futuri.
Inoltre, per confrontare Almaligner con TermoStat Web, software di estrazione terminologica automatica ibrido, e con l'algoritmo del C-value in PyATE, programma che implementa più tecniche di individuazione dei termini, sono stati condotti due esperimenti. Il primo prevedeva il riconoscimento di termini semplici e composti, il secondo solo di termini composti. In entrambi i test Almaligner ha ottenuto punteggi bassi, ma la salienza dei risultati potrebbe essere limitata date le ristrette dimensioni dei gold standard.
Abstract
A seguito dello scoppio della pandemia globale di COVID-19, iniziative come TICO-19, partnership pubblico-privata volta a rendere disponibili memorie di traduzione e strumenti per lo sviluppo di sistemi di traduzione automatica, hanno cercato di stimolare la coordinazione internazionale per favorire la produzione di risorse traduttive dedicate al dominio della malattia in più lingue possibili.
Nell'ottica di inserirsi in questo solco, il progetto si prefigge di costruire una termbase che copra il dominio COVID-19 nella combinazione linguistica inglese-italiano. La termbase è composta di unità terminologiche estratte sia manualmente che automaticamente.
Il ricorso all'estrazione terminologica automatica è stato dettato dal secondo obiettivo della tesi: valutare le potenzialità di Almaligner, software di estrazione terminologica automatica attualmente in fase di sviluppo. Il programma è in grado di diminuire drasticamente i tempi dell'identificazione dei candidati termini, il che può rappresentare un'abilità chiave in situazioni emergenziali in cui il tempo è prezioso.
Come prima cosa, Almaligner è stato utilizzato per estrarre una lista di candidati termini bilingue da sottoporre a un processo di validazione manuale. Mediante la validazione è stato possibile identificare i problemi ricorrenti e formulare una serie di proposte che permettessero di risolverli sfruttando funzioni preesistenti o che verranno implementate con aggiornamenti futuri.
Inoltre, per confrontare Almaligner con TermoStat Web, software di estrazione terminologica automatica ibrido, e con l'algoritmo del C-value in PyATE, programma che implementa più tecniche di individuazione dei termini, sono stati condotti due esperimenti. Il primo prevedeva il riconoscimento di termini semplici e composti, il secondo solo di termini composti. In entrambi i test Almaligner ha ottenuto punteggi bassi, ma la salienza dei risultati potrebbe essere limitata date le ristrette dimensioni dei gold standard.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Fiorentino, Giancarlo
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
COVID-19,coronavirus,TICO-19,terminologia,termbase,corpora,estrazione terminologica automatica,estrazione terminologica manuale,almaligner,termostat,C-value
Data di discussione della Tesi
26 Maggio 2021
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Fiorentino, Giancarlo
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
COVID-19,coronavirus,TICO-19,terminologia,termbase,corpora,estrazione terminologica automatica,estrazione terminologica manuale,almaligner,termostat,C-value
Data di discussione della Tesi
26 Maggio 2021
URI
Statistica sui download
Gestione del documento: