Un approccio per la disambiguazione di autori di articoli scientifici: algoritmo e implementazione

Montecchiari, Leonardo (2015) Un approccio per la disambiguazione di autori di articoli scientifici: algoritmo e implementazione. [Laurea], Università di Bologna, Corso di Studio in Informatica per il management [L-DM270]
Documenti full-text disponibili:
[img]
Anteprima
Documento PDF
Download (1MB) | Anteprima

Abstract

Dalla necessità di risolvere il problema della disambiguazione di un insieme di autori messo a disposizione dall'Università di Bologna, il Semantic Lancet, è nata l'idea di progettare un algoritmo di disambiguazione in grado di adattarsi, in caso di bisogno, a qualsiasi tipo di lista di autori. Per la fase di testing dell'algoritmo è stato utilizzato un dataset generato (11724 autori di cui 1295 coppie da disambiguare) dalle informazioni disponibili dal "database systems and logic programming" (DBLP), in modo da essere il più etereogeneo possibile, cioè da contenere il maggior numero di casi di disambiguazione possibile. Per i primi test di sbarramento è stato definito un algoritmo alternativo discusso nella sezione 4.3 ottenendo una misura di esattezza dell'1% ed una di completezza dell'81%. L'algoritmo proposto impostato con il modello di configurazione ha ottenuto invece una misura di esattezza dell'81% ed una di completezza del 70%, test discusso nella sezione 4.4. Successivamente l'algoritmo è stato testato anche su un altro dataset: Semantic Lancet (919 autori di cui 34 coppie da disambiguare), ottenendo, grazie alle dovute variazioni del file di configurazione, una misura di esattezza del 84% e una di completezza del 79%, discusso nella sezione 4.5.

Abstract
Tipologia del documento
Tesi di laurea (Laurea)
Autore della tesi
Montecchiari, Leonardo
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
semantic web, algoritmo, author disambiguation
Data di discussione della Tesi
17 Marzo 2015
URI

Altri metadati

Statistica sui download

Gestione del documento: Visualizza il documento

^