Aggregazione di dati testuali in MoK: matchmaking basato su ontologie o similarità

Fattori, Matteo (2017) Aggregazione di dati testuali in MoK: matchmaking basato su ontologie o similarità. [Laurea magistrale], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [LM-DM270] - Cesena
Documenti full-text disponibili:
[img] Documento PDF (Thesis)
Disponibile con Licenza: Creative Commons Attribuzione - Non commerciale - Non opere derivate 3.0

Download (2MB)

Abstract

Sono stati inizialmente analizzati due approcci per il calcolo di similarità: uno basato su ontologie e l'altro basato su misure di similarità. Con l'obiettivo di realizzare un sistema di aggregazione di conoscenza sono state illustrate, attraverso uno studio sullo stato dell'arte, le proprietà computazionali di tali approcci. Successivamente è stato effettuato uno studio che ha permesso di individuare tre strumenti per ogni approccio. Tra questi si è cercato di selezionare quello ottimale per ogni approccio che rispettasse determinati requisiti di espressività computazionale e di performance. A tale scopo è stato necessario introdurre dei test. Dai risultati ottenuti si è potuti giungere alla scelta del motore di inferenza semantica Hermit, definito come approccio semantico, e dell'algoritmo Generalized Jaccard per il calcolo di similarità sintattica, definito come approccio non-semantico, come strumenti ottimali. I risultati ottenuti dai test di performance hanno permesso di affermare che i due strumenti ottimali sono utilizzabili nel contesto dell'aggregazione di conoscenza individuato per il modello MoK. È stato pertanto progettato un sistema di aggregazione di cui sono state realizzate due versioni per aggregare frasi, una per l'approccio semantico e l'altra per quello non-semantico. Entrambe si compongono di tre passi realizzati ispirandosi al modello MoK: aggregazione di soli atomi, aggregazione di atomi in molecole già esistenti e aggregazione di sole molecole. Per l'approccio non-semantico è risultato immediato, una volta scelto il dataset, implementare il comportamento di ognuno dei tre passi, mentre per quello semantico è stato necessario introdurre un'apposito algoritmo di aggregazione che utilizza l'ontologia WordNet per riconoscere i sinonimi tra due frasi. Per verificare la validità di ciascun approccio è stato introdotto un apposito metodo di validazione grazie al quale è stato possibile mettere a confronto fra i due approcci.

Abstract
Tipologia del documento
Tesi di laurea (Laurea magistrale)
Autore della tesi
Fattori, Matteo
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
MoK,similarità sintattica,similarità semantica,text mining
Data di discussione della Tesi
16 Marzo 2017
URI

Altri metadati

Statistica sui download

Gestione del documento: Visualizza il documento

^