BERTopic e LDA: due approcci al Machine Learning documentale

Barbanti, Alessio (2024) BERTopic e LDA: due approcci al Machine Learning documentale. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena, Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore. (Contatta l'autore)

Abstract

I ticket di assistenza raccolti per anni dall’azienda sono una grande fonte di dati da cui poter estrarre nuovi insight riguardanti il benessere e le preoccupazioni dei clienti. La problematica principale consiste nel fatto che queste richieste di assistenza sono composte da dati non strutturati, la cui analisi può risultare complessa. Lo scopo dell'azienda è riuscire ad abilitare vari processi aziendali mediante la classificazione per argomento delle richieste di assistenza e la loro quantificazione relativa. Questi processi aziendali comprendono, ad esempio, l'offerta al cliente di un possibile primo approccio di self-healing attraverso un consolidamento e una standardizzazione delle soluzioni, l'indirizzamento automatico dei futuri ticket di assistenza al team preposto o la ricerca di un approccio data-driven per il processo di miglioramento della qualità del prodotto. Lo scopo di questa tesi è quello di analizzare, sfruttando tecniche di NLP e più precisamente nella loro declinazione di Topic Modeling, le performance e i risultati ottenuti dagli algoritmi LDA e BERTopic nell’estrazione di argomenti da una raccolta di casi di assistenza ricca di parole di dominio. Dopo aver preprocessato e filtrato i dati, i due algoritmi sono stati applicati sullo stesso insieme di documenti e successivamente affinati a più iterazioni per ottenere un risultato che si avvicinasse il più possibile alle richieste dell’azienda. I risultati così ottenuti hanno dimostrato come ognuno dei due algoritmi performasse meglio in un determinato ambito. LDA ha dimostrato una forte dipendenza dai dati iniziali e dai parametri scelti a fronte di una significativa riduzione dei tempi di esecuzione. BERTopic ha dimostrato una migliore resilienza a fronte di una peggiore qualità dei dati di partenza e una rappresentazione dei risultati più efficace, riuscendo a estrarre in maniera più chiara e coerente gli argomenti latenti.

Abstract
Tipologia del documento
Tesi di laurea (Laurea)
Autore della tesi
Barbanti, Alessio
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Indirizzo
Curriculum ingegneria informatica
Ordinamento Cds
DM270
Parole chiave
NLP,LDA,BERTopic,Machine Learning,Topic Modeling,Classificazione documenti,Insight extraction
Data di discussione della Tesi
15 Marzo 2024
URI

Altri metadati

Gestione del documento: Visualizza il documento

^