Valutazione dei Large Language Models nella Risoluzione dei Campionati Internazionali di Giochi Matematici

Tordi, Lorenzo (2025) Valutazione dei Large Language Models nella Risoluzione dei Campionati Internazionali di Giochi Matematici. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena, Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore. (Contatta l'autore)

Abstract

I Large Language Models (LLM) rappresentano uno dei temi più innovativi e studiati nell’intelligenza artificiale. In ambito matematico, numerosi lavori hanno valutato le loro capacità su benchmark consolidati, evidenziando prestazioni eccellenti in problemi di calcolo matematico, spesso paragonabili a quelle umane. Tuttavia, quando si tratta di compiti che richiedono ragionamento complesso e intuitivo, i LLM mostrano ancora limiti significativi, lasciando ampi margini di miglioramento. Questa tesi introduce MathGames, un nuovo benchmark matematico progettato per valutare le capacità dei LLM su problemi logico-deduttivi, composto esclusivamente da quesiti tratti da competizioni internazionali tra umani. MathGames si distingue dai benchmark tradizionali, che tendono a concentrarsi su calcoli ed equazioni, proponendo invece problemi che richiedono creatività, deduzione logica e, in alcuni casi, anche una componente visiva. I risultati ottenuti su questo benchmark mostrano che, contrariamente a quanto suggerito da alcuni studi recenti, i LLM non hanno ancora raggiunto una piena maturità nel ragionamento logico-matematico e rimangono lontani dal competere con le capacità umane in questo ambito.

Abstract
Tipologia del documento
Tesi di laurea (Laurea)
Autore della tesi
Tordi, Lorenzo
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
LLM,LMM,benchmark,competizioni matematiche
Data di discussione della Tesi
14 Marzo 2025
URI

Altri metadati

Gestione del documento: Visualizza il documento

^