Information Retrieval Biomedicale con Testo Arricchito Mediante Knowledge Graph Clinico

Barberini, Elisa (2023) Information Retrieval Biomedicale con Testo Arricchito Mediante Knowledge Graph Clinico. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena

Salva citazione

Documenti full-text disponibili:

Documento PDF (Thesis)
Disponibile con Licenza: Creative Commons: Attribuzione - Non commerciale - Non opere derivate 4.0 (CC BY-NC-ND 4.0)
Download (3MB)

Abstract

Una rete neurale artificiale, chiamata ANN, è un sistema informatico formato da neuroni interconnessi tra loro. Aggiungendo complessità ad un'ANN si ottiene una rete neurale profonda, DNN, ancora più potente. Una DNN è capace di lavorare a problemi non lineari, potendo quindi generare modelli più complessi e con maggior precisione. Vengono infatti impiegate con enorme successo in task di NLP. Negli anni le ricerche scientifiche hanno portato alla creazione dei Large Language Model (LLM), modelli con miliardi di parametri che li permettono di apprendere e conservare conoscenza dentro di se. Una importante corrente di ricerca sta studiando come sfruttare questi modelli insieme ai Knowledge Graph (KG), grafi contenenti conoscenza su specifici domini. Questi KG, potrebbero essere fondamentali per ridurre i dati di train necessari, rendere le DNN più flessibili e veloci ad adattarsi a nuovi task. Lo scopo di questo progetto consiste sia nello studio di un algoritmo per arricchire il testo biomedico utilizzando la conoscenza di un KG che nell'addestramento di alcune DNN nella rappresentazione del linguaggio biomedico per il task di document retrieval. In dettaglio proponiamo un algoritmo per arricchimento del testo biomedico, che sfrutta algoritmi State-Of-The-Art (SOTA) per la selezione dei termini biomedici più importanti (NER). Dopo di che, i termini selezionati verranno arricchiti dal punto di vista descrittivo e di relazioni con altre entità biomediche, sfruttando un Knowledge Graph clinico. In un secondo momento, proviamo ad utilizzare l'algoritmo di document retrieval, dove per ogni query espressa in linguaggio naturale, bisogna selezionare i documenti più attinenti. Questo perché in letteratura è noto che una maggiore informazione espressa nella query porti a una più precisa selezione dei documenti. Si vuole quindi verificare se determinati language model, specifici per il dominio biomedico, ottengano performance migliori attraverso l'utilizzo del testo arricchito.

Abstract

Tipologia del documento

Tesi di laurea (Laurea)

Autore della tesi

Barberini, Elisa

Relatore della tesi

Moro, Gianluca

Correlatore della tesi

Valgimigli, Lorenzo

Scuola

Ingegneria e Architettura

Corso di studio