Tordi, Lorenzo
(2025)
Valutazione dei Large Language Models nella Risoluzione dei Campionati Internazionali di Giochi Matematici.
[Laurea], Università di Bologna, Corso di Studio in
Ingegneria e scienze informatiche [L-DM270] - Cesena, Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore.
(
Contatta l'autore)
Abstract
I Large Language Models (LLM) rappresentano uno dei temi più innovativi
e studiati nell’intelligenza artificiale. In ambito matematico, numerosi lavori
hanno valutato le loro capacità su benchmark consolidati, evidenziando prestazioni eccellenti in problemi di calcolo matematico, spesso paragonabili a quelle
umane. Tuttavia, quando si tratta di compiti che richiedono ragionamento
complesso e intuitivo, i LLM mostrano ancora limiti significativi, lasciando
ampi margini di miglioramento. Questa tesi introduce MathGames, un nuovo benchmark matematico progettato per valutare le capacità dei LLM su
problemi logico-deduttivi, composto esclusivamente da quesiti tratti da competizioni internazionali tra umani. MathGames si distingue dai benchmark
tradizionali, che tendono a concentrarsi su calcoli ed equazioni, proponendo invece problemi che richiedono creatività, deduzione logica e, in alcuni casi, anche
una componente visiva. I risultati ottenuti su questo benchmark mostrano che,
contrariamente a quanto suggerito da alcuni studi recenti, i LLM non hanno
ancora raggiunto una piena maturità nel ragionamento logico-matematico e
rimangono lontani dal competere con le capacità umane in questo ambito.
Abstract
I Large Language Models (LLM) rappresentano uno dei temi più innovativi
e studiati nell’intelligenza artificiale. In ambito matematico, numerosi lavori
hanno valutato le loro capacità su benchmark consolidati, evidenziando prestazioni eccellenti in problemi di calcolo matematico, spesso paragonabili a quelle
umane. Tuttavia, quando si tratta di compiti che richiedono ragionamento
complesso e intuitivo, i LLM mostrano ancora limiti significativi, lasciando
ampi margini di miglioramento. Questa tesi introduce MathGames, un nuovo benchmark matematico progettato per valutare le capacità dei LLM su
problemi logico-deduttivi, composto esclusivamente da quesiti tratti da competizioni internazionali tra umani. MathGames si distingue dai benchmark
tradizionali, che tendono a concentrarsi su calcoli ed equazioni, proponendo invece problemi che richiedono creatività, deduzione logica e, in alcuni casi, anche
una componente visiva. I risultati ottenuti su questo benchmark mostrano che,
contrariamente a quanto suggerito da alcuni studi recenti, i LLM non hanno
ancora raggiunto una piena maturità nel ragionamento logico-matematico e
rimangono lontani dal competere con le capacità umane in questo ambito.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Tordi, Lorenzo
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
LLM,LMM,benchmark,competizioni matematiche
Data di discussione della Tesi
14 Marzo 2025
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Tordi, Lorenzo
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
LLM,LMM,benchmark,competizioni matematiche
Data di discussione della Tesi
14 Marzo 2025
URI
Gestione del documento: