Evangelisti, Riccardo
(2025)
Sentence Transformers per risolvere task di Entity Resolution e Information Retrieval su dati in linguaggio naturale.
[Laurea magistrale], Università di Bologna, Corso di Studio in
Ingegneria informatica [LM-DM270], Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore.
(
Contatta l'autore)
Abstract
L'Entity Resolution (ER) è un problema chiave nell'elaborazione dei dati, in cui si cerca di identificare e unificare record simili che fanno riferimento alla stessa entità reale. Il presente studio esplora l'uso dei Sentence Transformer per affrontare il problema dell'ER applicato ad un dataset di indirizzi stradali, che risultano duplicati perché variano in base a errori tipografici, variazioni lessicali, aggiunta o rimozione di intere parole.
Il modello sviluppato utilizza un'architettura basata su BERT, combinata con una rete deep feed forward, per classificare e unificare le coppie di record. Attraverso un'analisi delle possibili configurazioni del modello, si sono migliorate significativamente le prestazioni iniziali, ottenendo un F1-score di 0.95 e un'accuratezza del 0.97 sul set di test.
L'interpretabilità del modello è stata studiata utilizzando SHAP e rappresentazioni dei vettori tramite t-SNE, evidenziando come la qualità delle classificazioni dipenda dalla quantità di dati coreferenti disponibili.
Infine, vengono discusse possibili direzioni future, tra cui l'uso di funzioni di perdita della famiglia del Contrastive Learning per generare embedding più distintivi e l'adozione di tecniche di nearest neighbor per ridurre i tempi di inferenza.
Abstract
L'Entity Resolution (ER) è un problema chiave nell'elaborazione dei dati, in cui si cerca di identificare e unificare record simili che fanno riferimento alla stessa entità reale. Il presente studio esplora l'uso dei Sentence Transformer per affrontare il problema dell'ER applicato ad un dataset di indirizzi stradali, che risultano duplicati perché variano in base a errori tipografici, variazioni lessicali, aggiunta o rimozione di intere parole.
Il modello sviluppato utilizza un'architettura basata su BERT, combinata con una rete deep feed forward, per classificare e unificare le coppie di record. Attraverso un'analisi delle possibili configurazioni del modello, si sono migliorate significativamente le prestazioni iniziali, ottenendo un F1-score di 0.95 e un'accuratezza del 0.97 sul set di test.
L'interpretabilità del modello è stata studiata utilizzando SHAP e rappresentazioni dei vettori tramite t-SNE, evidenziando come la qualità delle classificazioni dipenda dalla quantità di dati coreferenti disponibili.
Infine, vengono discusse possibili direzioni future, tra cui l'uso di funzioni di perdita della famiglia del Contrastive Learning per generare embedding più distintivi e l'adozione di tecniche di nearest neighbor per ridurre i tempi di inferenza.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Evangelisti, Riccardo
Relatore della tesi
Scuola
Corso di studio
Indirizzo
CURRICULUM INGEGNERIA INFORMATICA
Ordinamento Cds
DM270
Parole chiave
Entity Resolution, Sentence Transformers, BERT, nlp, information retrieval
Data di discussione della Tesi
25 Marzo 2025
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Evangelisti, Riccardo
Relatore della tesi
Scuola
Corso di studio
Indirizzo
CURRICULUM INGEGNERIA INFORMATICA
Ordinamento Cds
DM270
Parole chiave
Entity Resolution, Sentence Transformers, BERT, nlp, information retrieval
Data di discussione della Tesi
25 Marzo 2025
URI
Gestione del documento: