Canghiari, Matteo
(2025)
Tecniche di Topic Extraction e LLM Applicate ad Articoli Scientifici: Esperimenti sul Tema Computer Chess.
[Laurea], Università di Bologna, Corso di Studio in
Informatica per il management [L-DM270]
Documenti full-text disponibili:
![[thumbnail of Thesis]](https://amslaurea.unibo.it/style/images/fileicons/application_pdf.png) |
Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (885kB)
|
Abstract
La classificazione testuale è un problema centrale in ambito Natural Language Processing, con applicazioni che variano dall'etichettatura fino all'estrapolazione di argomenti ricorrenti da un insieme di dati. Il lavoro di questa tesi esplora le tecniche di machine learning applicate per annotare il contenuto di molteplici articoli scientifici, focalizzati sull'evoluzione del rapporto tra intelligenza artificiale e computer chess. L'obiettivo del caso di studio è la costruzione di un sistema capace di estrarre informazioni testuali da un archivio di file PDF e la valutazione dell'efficacia di modelli di apprendimento automatico, pre-addestrati e non-supervisionati, nella classificazione dei contenuti ricavati dalla medesima collezione di documenti. Successivamente ad attività di estrazione e preprocessing dei dati, poi racchiusi all'interno di un dataset, sono utilizzati modelli di linguaggio naturale e di topic extraction per tentare di classificare le osservazioni estrapolate secondo delle liste predefinite di categorie, seguendo un approccio Zero-Shot. L'analisi dei risultati finali ottenuti evidenzieranno le difficoltà di ciascun metodo impiegato, offrendo una visione per futuri sviluppi nella classificazione testuale di documenti accademici.
Abstract
La classificazione testuale è un problema centrale in ambito Natural Language Processing, con applicazioni che variano dall'etichettatura fino all'estrapolazione di argomenti ricorrenti da un insieme di dati. Il lavoro di questa tesi esplora le tecniche di machine learning applicate per annotare il contenuto di molteplici articoli scientifici, focalizzati sull'evoluzione del rapporto tra intelligenza artificiale e computer chess. L'obiettivo del caso di studio è la costruzione di un sistema capace di estrarre informazioni testuali da un archivio di file PDF e la valutazione dell'efficacia di modelli di apprendimento automatico, pre-addestrati e non-supervisionati, nella classificazione dei contenuti ricavati dalla medesima collezione di documenti. Successivamente ad attività di estrazione e preprocessing dei dati, poi racchiusi all'interno di un dataset, sono utilizzati modelli di linguaggio naturale e di topic extraction per tentare di classificare le osservazioni estrapolate secondo delle liste predefinite di categorie, seguendo un approccio Zero-Shot. L'analisi dei risultati finali ottenuti evidenzieranno le difficoltà di ciascun metodo impiegato, offrendo una visione per futuri sviluppi nella classificazione testuale di documenti accademici.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Canghiari, Matteo
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Natural Language Processing,Topic Modeling,Machine Learning,Classificazione Testuale,Python
Data di discussione della Tesi
25 Marzo 2025
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Canghiari, Matteo
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Natural Language Processing,Topic Modeling,Machine Learning,Classificazione Testuale,Python
Data di discussione della Tesi
25 Marzo 2025
URI
Statistica sui download
Gestione del documento: