Solazzi, Werther
(2025)
Problema generalizzato ai minimi quadrati applicato all'Information Retrieval.
[Laurea], Università di Bologna, Corso di Studio in
Matematica [L-DM270]
Documenti full-text disponibili:
![[thumbnail of Thesis]](https://amslaurea.unibo.it/style/images/fileicons/application_pdf.png) |
Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (1MB)
|
Abstract
In questa tesi si affronta un problema di Information Retrieval (IR) basato sulla rappresentazione vettoriale del contenuto testuale. L’obiettivo è individuare, a partire da una query espressa nel vocabolario dei termini, i documenti più rilevanti all’interno di due collezioni testuali differenti. Il problema viene formalizzato come un problema matriciale ai minimi quadrati. La risoluzione di tale problema consente quindi di identificare quale dei due insiemi tematici riesce a descrivere meglio la query; a tal fine sono stati proposti e implementati due approcci distinti per la risoluzione del problema: un primo metodo, più adatto a matrici di dimensioni ridotte, che generalizza il metodo QR per la risoluzione efficiente del sistema, e un secondo approccio, basato sull’algoritmo LSQR, pensato per matrici di grandi dimensioni e caratterizzate da sparsità. Nella parte finale dell'elaborato si testa l'algoritmo matriciale LSQR sul dataset Reuters-21578, fonte di riferimento per lo studio di sistemi di IR, e tramite l'uso della decomposizione SVD, si traggono conclusioni sulle soluzioni trovate nelle diverse casistiche.
Abstract
In questa tesi si affronta un problema di Information Retrieval (IR) basato sulla rappresentazione vettoriale del contenuto testuale. L’obiettivo è individuare, a partire da una query espressa nel vocabolario dei termini, i documenti più rilevanti all’interno di due collezioni testuali differenti. Il problema viene formalizzato come un problema matriciale ai minimi quadrati. La risoluzione di tale problema consente quindi di identificare quale dei due insiemi tematici riesce a descrivere meglio la query; a tal fine sono stati proposti e implementati due approcci distinti per la risoluzione del problema: un primo metodo, più adatto a matrici di dimensioni ridotte, che generalizza il metodo QR per la risoluzione efficiente del sistema, e un secondo approccio, basato sull’algoritmo LSQR, pensato per matrici di grandi dimensioni e caratterizzate da sparsità. Nella parte finale dell'elaborato si testa l'algoritmo matriciale LSQR sul dataset Reuters-21578, fonte di riferimento per lo studio di sistemi di IR, e tramite l'uso della decomposizione SVD, si traggono conclusioni sulle soluzioni trovate nelle diverse casistiche.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Solazzi, Werther
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
minimi,quadrati,Kronecker,LSQR,residuo,Householder,Givens,matrice,convergenza
Data di discussione della Tesi
29 Ottobre 2025
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Solazzi, Werther
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
minimi,quadrati,Kronecker,LSQR,residuo,Householder,Givens,matrice,convergenza
Data di discussione della Tesi
29 Ottobre 2025
URI
Statistica sui download
Gestione del documento: