Valutazione dei Large Language Models nella Risoluzione dei Campionati Internazionali di Giochi Matematici

Tordi, Lorenzo (2025) Valutazione dei Large Language Models nella Risoluzione dei Campionati Internazionali di Giochi Matematici. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena, Documento full-text non disponibile

Salva citazione

Il full-text non è disponibile per scelta dell'autore. (Contatta l'autore)

Abstract

I Large Language Models (LLM) rappresentano uno dei temi più innovativi e studiati nell’intelligenza artificiale. In ambito matematico, numerosi lavori hanno valutato le loro capacità su benchmark consolidati, evidenziando prestazioni eccellenti in problemi di calcolo matematico, spesso paragonabili a quelle umane. Tuttavia, quando si tratta di compiti che richiedono ragionamento complesso e intuitivo, i LLM mostrano ancora limiti significativi, lasciando ampi margini di miglioramento. Questa tesi introduce MathGames, un nuovo benchmark matematico progettato per valutare le capacità dei LLM su problemi logico-deduttivi, composto esclusivamente da quesiti tratti da competizioni internazionali tra umani. MathGames si distingue dai benchmark tradizionali, che tendono a concentrarsi su calcoli ed equazioni, proponendo invece problemi che richiedono creatività, deduzione logica e, in alcuni casi, anche una componente visiva. I risultati ottenuti su questo benchmark mostrano che, contrariamente a quanto suggerito da alcuni studi recenti, i LLM non hanno ancora raggiunto una piena maturità nel ragionamento logico-matematico e rimangono lontani dal competere con le capacità umane in questo ambito.

Abstract

Tipologia del documento

Tesi di laurea (Laurea)

Autore della tesi

Tordi, Lorenzo

Relatore della tesi

Moro, Gianluca

Correlatore della tesi

Cocchieri, Alessio

Scuola

Ingegneria e Architettura

Corso di studio