Documenti full-text disponibili:
Abstract
In questa tesi vengono analizzati i principali approcci utilizzati per problemi di Information Retrieval, dai primi metodi implementati fino ai più recenti, ponendo particolare interesse ai modelli Neurali, i quali utilizzano tecniche di Machine Learning e Deep Learning.
Si è inoltre realizzato un progetto di Information Retrieval Neurale, su un task di recupero di documenti rilevanti riguardanti il COVID-19, sulla base di una domanda posta in linguaggio naturale.
Sono stati addestrati sei modelli a partire da SciBERT, una versione del modello BERT addestrata su documenti scientifici, utilizzando il dataset della competizione Kaggle “COVID-19 Open Research Dataset (CORD-19)”. Ognuno di essi è stato addestrato su documenti aventi una soglia differente di caratteri contenuti nel titolo.
I modelli ottenuti sono stati testati sulle query presenti nel dataset “TREC-COVID” e confrontati tra di loro. Il modello migliore è risultato essere quello addestrato su documenti i cui titoli hanno lunghezza minima di 80 caratteri.
È stato infine confrontato quest’ultimo modello con CO-Search, il modello che ha ottenuto i risultati migliori in questo specifico task.
I risultati restituiti dal nostro modello risultano essere inferiori a quelli ottenuti da CO-Search, ma nettamente superiori a ciò che si otterrebbe utilizzando un modello casuale.
Il nostro modello, il quale restituisce una lista di documenti, dai più rilevanti ai meno rilevanti, sembra essere abile nel classificare i paper non rilevanti nelle posizioni finali della lista, ma non altrettanto capace nel distinguere i documenti rilevanti da quelli parzialmente rilevanti.
Nonostante ciò, nel complesso il risultato ottenuto è stato soddisfacente.
Abstract
In questa tesi vengono analizzati i principali approcci utilizzati per problemi di Information Retrieval, dai primi metodi implementati fino ai più recenti, ponendo particolare interesse ai modelli Neurali, i quali utilizzano tecniche di Machine Learning e Deep Learning.
Si è inoltre realizzato un progetto di Information Retrieval Neurale, su un task di recupero di documenti rilevanti riguardanti il COVID-19, sulla base di una domanda posta in linguaggio naturale.
Sono stati addestrati sei modelli a partire da SciBERT, una versione del modello BERT addestrata su documenti scientifici, utilizzando il dataset della competizione Kaggle “COVID-19 Open Research Dataset (CORD-19)”. Ognuno di essi è stato addestrato su documenti aventi una soglia differente di caratteri contenuti nel titolo.
I modelli ottenuti sono stati testati sulle query presenti nel dataset “TREC-COVID” e confrontati tra di loro. Il modello migliore è risultato essere quello addestrato su documenti i cui titoli hanno lunghezza minima di 80 caratteri.
È stato infine confrontato quest’ultimo modello con CO-Search, il modello che ha ottenuto i risultati migliori in questo specifico task.
I risultati restituiti dal nostro modello risultano essere inferiori a quelli ottenuti da CO-Search, ma nettamente superiori a ciò che si otterrebbe utilizzando un modello casuale.
Il nostro modello, il quale restituisce una lista di documenti, dai più rilevanti ai meno rilevanti, sembra essere abile nel classificare i paper non rilevanti nelle posizioni finali della lista, ma non altrettanto capace nel distinguere i documenti rilevanti da quelli parzialmente rilevanti.
Nonostante ciò, nel complesso il risultato ottenuto è stato soddisfacente.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Biancacci, Veronica
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
information retrieval,natural language processing
Data di discussione della Tesi
8 Ottobre 2020
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Biancacci, Veronica
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
information retrieval,natural language processing
Data di discussione della Tesi
8 Ottobre 2020
URI
Statistica sui download
Gestione del documento: