Giusti, Giulia
(2019)
Similarità tra stringhe, applicazione dell'algoritmo TLSH a testi di ingegneria.
[Laurea], Università di Bologna, Corso di Studio in
Informatica [L-DM270]
Documenti full-text disponibili:
|
Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (1MB)
|
Abstract
La similarity search, ricerca di oggetti simili, è una tecnica fondamentale per l'ottenimento di considerazioni importanti sull'enorme quantità di dati che vengono prodotti ogni giorno.
Il progetto riguarda lo sviluppo di un software di ricerca, raggruppamento e classificazione di somiglianza, basato sulla funzione TLSH, di documenti aziendali. A tal proposito, è stata eseguita una ricerca di similarità articolata su tre livelli: sezione, paragrafo e frase.
La funzione TLSH utilizza le migliori tecnologie in termini di efficienza e applicabilità al problema dei Nearest Neighbors: Locality Sensitive Hashing (LSH), Context Triggered Piecewise Hashing (CTPH) e Features Extraction. Queste ultime verificano la proprietà di creazione di digest simili per oggetti simili, fondamentale nella similarity search.
Il sistema del progetto di tesi è composto da due parti distinte: l'ambiente di test della funzione TLSH e il servizio relativo all'API per il confronto tra funzioni LSH.
La valutazione dell'ambiente è stata eseguita attraverso due differenti analisi: quantitativa e qualitativa. La prima con lo scopo di esaminare l'efficienza dell'ambiente in relazione al tempo di esecuzione e alla precisione dei risultati ottenuti. Mentre la valutazione qualitativa riguarda la soddisfazione da parte dell'utente in termini di usabilità del sistema attraverso la somministrazione del questionario SUS (System Usability Scale).
Dall'indagine dei test quantitativi si sono potuti osservare risultati soddisfacenti in efficienza e precisione. Inoltre, i risultati qualitativi si sono rivelati eccellenti con un punteggio SUS molto più elevato del valore medio ottenuto sperimentalmente.
Sviluppi futuri del sistema TLSH potrebbero concernere l'ideazione di un metodo di inserimento dei digest all'interno di una tabella hash, sfruttando al meglio le proprietà di LSH, e l'eliminazione del limite minimo di caratteri richiesti per la creazione di digest.
Abstract
La similarity search, ricerca di oggetti simili, è una tecnica fondamentale per l'ottenimento di considerazioni importanti sull'enorme quantità di dati che vengono prodotti ogni giorno.
Il progetto riguarda lo sviluppo di un software di ricerca, raggruppamento e classificazione di somiglianza, basato sulla funzione TLSH, di documenti aziendali. A tal proposito, è stata eseguita una ricerca di similarità articolata su tre livelli: sezione, paragrafo e frase.
La funzione TLSH utilizza le migliori tecnologie in termini di efficienza e applicabilità al problema dei Nearest Neighbors: Locality Sensitive Hashing (LSH), Context Triggered Piecewise Hashing (CTPH) e Features Extraction. Queste ultime verificano la proprietà di creazione di digest simili per oggetti simili, fondamentale nella similarity search.
Il sistema del progetto di tesi è composto da due parti distinte: l'ambiente di test della funzione TLSH e il servizio relativo all'API per il confronto tra funzioni LSH.
La valutazione dell'ambiente è stata eseguita attraverso due differenti analisi: quantitativa e qualitativa. La prima con lo scopo di esaminare l'efficienza dell'ambiente in relazione al tempo di esecuzione e alla precisione dei risultati ottenuti. Mentre la valutazione qualitativa riguarda la soddisfazione da parte dell'utente in termini di usabilità del sistema attraverso la somministrazione del questionario SUS (System Usability Scale).
Dall'indagine dei test quantitativi si sono potuti osservare risultati soddisfacenti in efficienza e precisione. Inoltre, i risultati qualitativi si sono rivelati eccellenti con un punteggio SUS molto più elevato del valore medio ottenuto sperimentalmente.
Sviluppi futuri del sistema TLSH potrebbero concernere l'ideazione di un metodo di inserimento dei digest all'interno di una tabella hash, sfruttando al meglio le proprietà di LSH, e l'eliminazione del limite minimo di caratteri richiesti per la creazione di digest.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Giusti, Giulia
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
TLSH,Similarity Search,Locality Sensitive Hashing,Problema dei Nearest Neighbors
Data di discussione della Tesi
16 Ottobre 2019
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Giusti, Giulia
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
TLSH,Similarity Search,Locality Sensitive Hashing,Problema dei Nearest Neighbors
Data di discussione della Tesi
16 Ottobre 2019
URI
Statistica sui download
Gestione del documento: