Notari, Stefano
(2024)
Estendere ed integrare tecniche di Information Retrieval e visualizzazione SunBurst per la ricerca di frammenti e documenti rilevanti.
[Laurea magistrale], Università di Bologna, Corso di Studio in
Informatica [LM-DM270]
Documenti full-text disponibili:
Abstract
L’espandersi delle fonti disponibili su web e nelle biblioteche digitali rende sempre più difficile trovare documenti o frammenti di testo rilevanti all’interno di basi documentali. Il problema è duplice: assegnare in modo accurato un punteggio di rilevanza a ciascun documento della collezione e presentare i risultati all’utente in modo chiaro ed immediato. Nel contesto delle Biblioteche Digitali i risultati vengono presentati come semplice lista e la rilevanza viene sempre calcolata a livello di documento, senza tenere in considerazione casi d’uso in cui l’utente è interessato ad un frammento del documento piuttosto che all’intero documento. L’obiettivo di questo elaborato è duplice: proporre un’interfaccia alternativa a quella sequenziale ed integrare tecniche di Information Retrieval capaci sia di calcolare la rilevanza a livello di documento sia a livello di frammento. Per quanto riguarda l'interfaccia si propone l'utilizzo di una tecnica di visualizzazione radiale come il SunBurst, che permette di mantenere una panoramica globale sui risultati di ricerca. Per lo sviluppo del motore di ricerca, invece, è stato utilizzato un algoritmo ibrido, che combina la ricerca lessicale con quella semantica per migliorare la qualità dei risultati. Nell’elaborato viene prima approfondito lo stato dell’arte e viene presentata l’applicazione utilizzata come base per lo sviluppo della soluzione proposta, ossia DocuDipity. Successivamente, viene esposta nel dettaglio la soluzione proposta e la relativa implementazione. Infine, vengono discussi i test effettuati per valutare l’interfaccia e il motore di ricerca ibrido sviluppato.
Abstract
L’espandersi delle fonti disponibili su web e nelle biblioteche digitali rende sempre più difficile trovare documenti o frammenti di testo rilevanti all’interno di basi documentali. Il problema è duplice: assegnare in modo accurato un punteggio di rilevanza a ciascun documento della collezione e presentare i risultati all’utente in modo chiaro ed immediato. Nel contesto delle Biblioteche Digitali i risultati vengono presentati come semplice lista e la rilevanza viene sempre calcolata a livello di documento, senza tenere in considerazione casi d’uso in cui l’utente è interessato ad un frammento del documento piuttosto che all’intero documento. L’obiettivo di questo elaborato è duplice: proporre un’interfaccia alternativa a quella sequenziale ed integrare tecniche di Information Retrieval capaci sia di calcolare la rilevanza a livello di documento sia a livello di frammento. Per quanto riguarda l'interfaccia si propone l'utilizzo di una tecnica di visualizzazione radiale come il SunBurst, che permette di mantenere una panoramica globale sui risultati di ricerca. Per lo sviluppo del motore di ricerca, invece, è stato utilizzato un algoritmo ibrido, che combina la ricerca lessicale con quella semantica per migliorare la qualità dei risultati. Nell’elaborato viene prima approfondito lo stato dell’arte e viene presentata l’applicazione utilizzata come base per lo sviluppo della soluzione proposta, ossia DocuDipity. Successivamente, viene esposta nel dettaglio la soluzione proposta e la relativa implementazione. Infine, vengono discussi i test effettuati per valutare l’interfaccia e il motore di ricerca ibrido sviluppato.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Notari, Stefano
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Indirizzo
CURRICULUM A: TECNICHE DEL SOFTWARE
Ordinamento Cds
DM270
Parole chiave
Information Retrieval,SunBurst,DocuDipity,UX,SBERT,BM25,Sentence Similarity,Semantic Search,Lexical Search,RASH
Data di discussione della Tesi
10 Luglio 2024
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Notari, Stefano
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Indirizzo
CURRICULUM A: TECNICHE DEL SOFTWARE
Ordinamento Cds
DM270
Parole chiave
Information Retrieval,SunBurst,DocuDipity,UX,SBERT,BM25,Sentence Similarity,Semantic Search,Lexical Search,RASH
Data di discussione della Tesi
10 Luglio 2024
URI
Statistica sui download
Gestione del documento: