Analisi e sperimentazione di approcci di information retrieval neurale

Biancacci, Veronica (2020) Analisi e sperimentazione di approcci di information retrieval neurale. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena

Salva citazione

Documenti full-text disponibili:

Documento PDF (Thesis)
Disponibile con Licenza: Creative Commons: Attribuzione - Condividi allo stesso modo 4.0 (CC BY-SA 4.0)
Download (1MB)

Abstract

In questa tesi vengono analizzati i principali approcci utilizzati per problemi di Information Retrieval, dai primi metodi implementati fino ai più recenti, ponendo particolare interesse ai modelli Neurali, i quali utilizzano tecniche di Machine Learning e Deep Learning. Si è inoltre realizzato un progetto di Information Retrieval Neurale, su un task di recupero di documenti rilevanti riguardanti il COVID-19, sulla base di una domanda posta in linguaggio naturale. Sono stati addestrati sei modelli a partire da SciBERT, una versione del modello BERT addestrata su documenti scientifici, utilizzando il dataset della competizione Kaggle “COVID-19 Open Research Dataset (CORD-19)”. Ognuno di essi è stato addestrato su documenti aventi una soglia differente di caratteri contenuti nel titolo. I modelli ottenuti sono stati testati sulle query presenti nel dataset “TREC-COVID” e confrontati tra di loro. Il modello migliore è risultato essere quello addestrato su documenti i cui titoli hanno lunghezza minima di 80 caratteri. È stato infine confrontato quest’ultimo modello con CO-Search, il modello che ha ottenuto i risultati migliori in questo specifico task. I risultati restituiti dal nostro modello risultano essere inferiori a quelli ottenuti da CO-Search, ma nettamente superiori a ciò che si otterrebbe utilizzando un modello casuale. Il nostro modello, il quale restituisce una lista di documenti, dai più rilevanti ai meno rilevanti, sembra essere abile nel classificare i paper non rilevanti nelle posizioni finali della lista, ma non altrettanto capace nel distinguere i documenti rilevanti da quelli parzialmente rilevanti. Nonostante ciò, nel complesso il risultato ottenuto è stato soddisfacente.

Abstract

Tipologia del documento

Tesi di laurea (Laurea)

Autore della tesi

Biancacci, Veronica

Relatore della tesi

Moro, Gianluca

Correlatore della tesi

Valgimigli, Lorenzo

Scuola

Scienze

Corso di studio