Conteduca, Antonio
(2019)
L’uso di tecniche di similarità nell’editing di documenti fortemente strutturati.
[Laurea magistrale], Università di Bologna, Corso di Studio in
Informatica [LM-DM270]
Documenti full-text disponibili:
|
Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (1MB)
|
Abstract
Lo scopo di questo progetto è quello di verificare la tesi secondo cui l’utilizzo di metodologie basate sul calcolo della similarità può migliorare l’editing di documenti strutturati attraverso attività di ricerca, recupero e confronto che forniscono supporto testuale a vari livelli di dettaglio. La ricerca di oggetti simili è un campo molto importante del Text Mining e, a tal proposito, sono state analizzate e implementate due tecniche che permettono di ricercare frammenti quali frasi, paragrafi e sezioni partendo da un testo in input e da una fissata metrica di similarità. Lo scopo è di progettare un sistema di supporto testuale che fornisca suggerimenti all’utente durante la fase di editing di un nuovo documento in modo da facilitare la scrittura e rendendo il documento conforme alle linee guida di una collezione di documenti iniziale. Nel corso della dissertazione verranno trattate tematiche come il concetto di similarità e i modi per quantificarla; verrà discusso come rappresentare vettorialmente il testo e, sulla base di ciò, verrà analizzato nel dettaglio gli algoritmi MRCTA e Minhash, un’istanza dello schema LSH (Locality Sensitive Hashing), che permette di stimare la similarità di Jaccard; verrà descritta SHE ossia l’ambiente implementato per consentire le fasi di confronto e testing delle tecniche considerate; infine, verranno analizzati i risultati della fase di test il cui scopo è quello di quantificare la soddisfazione dell’utente nell’utilizzo del sistema in modo da individuare, attraverso l’ausilio del questionario SUS, la tecnica più adatta.
Abstract
Lo scopo di questo progetto è quello di verificare la tesi secondo cui l’utilizzo di metodologie basate sul calcolo della similarità può migliorare l’editing di documenti strutturati attraverso attività di ricerca, recupero e confronto che forniscono supporto testuale a vari livelli di dettaglio. La ricerca di oggetti simili è un campo molto importante del Text Mining e, a tal proposito, sono state analizzate e implementate due tecniche che permettono di ricercare frammenti quali frasi, paragrafi e sezioni partendo da un testo in input e da una fissata metrica di similarità. Lo scopo è di progettare un sistema di supporto testuale che fornisca suggerimenti all’utente durante la fase di editing di un nuovo documento in modo da facilitare la scrittura e rendendo il documento conforme alle linee guida di una collezione di documenti iniziale. Nel corso della dissertazione verranno trattate tematiche come il concetto di similarità e i modi per quantificarla; verrà discusso come rappresentare vettorialmente il testo e, sulla base di ciò, verrà analizzato nel dettaglio gli algoritmi MRCTA e Minhash, un’istanza dello schema LSH (Locality Sensitive Hashing), che permette di stimare la similarità di Jaccard; verrà descritta SHE ossia l’ambiente implementato per consentire le fasi di confronto e testing delle tecniche considerate; infine, verranno analizzati i risultati della fase di test il cui scopo è quello di quantificare la soddisfazione dell’utente nell’utilizzo del sistema in modo da individuare, attraverso l’ausilio del questionario SUS, la tecnica più adatta.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Conteduca, Antonio
Relatore della tesi
Scuola
Corso di studio
Indirizzo
CURRICULUM A: TECNICHE DEL SOFTWARE
Ordinamento Cds
DM270
Parole chiave
Text Similarity,Locality Sensitive Hashing,Minhash,Text Retrieval,Suggestion System
Data di discussione della Tesi
19 Dicembre 2019
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Conteduca, Antonio
Relatore della tesi
Scuola
Corso di studio
Indirizzo
CURRICULUM A: TECNICHE DEL SOFTWARE
Ordinamento Cds
DM270
Parole chiave
Text Similarity,Locality Sensitive Hashing,Minhash,Text Retrieval,Suggestion System
Data di discussione della Tesi
19 Dicembre 2019
URI
Statistica sui download
Gestione del documento: