Ragionamento visivo nei large language model multimodali per la risoluzione di puzzle scacchistici

Samorì, Andrea (2025) Ragionamento visivo nei large language model multimodali per la risoluzione di puzzle scacchistici. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena, Documento ad accesso riservato.
Documenti full-text disponibili:
[thumbnail of Thesis] Documento PDF (Thesis)
Full-text non accessibile fino al 30 Novembre 2026.
Disponibile con Licenza: Creative Commons: Attribuzione - Non commerciale - Condividi allo stesso modo 4.0 (CC BY-NC-SA 4.0)

Download (3MB) | Contatta l'autore

Abstract

Nel mondo dell’intelligenza artificiale applicata agli scacchi, i Large Language Model (LLM) rappresentano una nuova strada da esplorare grazie alle loro capacità di analizzare e comprendere il testo. Il legame tra LLM e gli scacchi è reso possibile dalle varie notazioni testuali, come la Portable Game Notation e la Forsyth–Edwards Notation, con cui possono essere rappresentate le partite. Un’evoluzione dei LLM sono i Multimodal Large Language Model (MLLM), i quali possono analizzare non solo input testuali, ma anche informazioni in altre modalità, come immagini o audio. Ad oggi, la ricerca si è concentrata sullo sviluppo di Chess Language Models (CLM), cioè LLM in grado di comprendere il dominio degli scacchi. Mentre i CLM sono unicamente allenati tramite testo, in questo lavoro esploriamo l’applicazione dei MLLM per la risoluzione di puzzle scacchistici, utilizzando anche le immagini della scacchiera come dati per l’allenamento. Il metodo proposto consiste nel allenare, tramite Reinforcement Learning (RL), un MLLM in grado di generare, dato lo stato della scacchiera (sia in formato testuale che tramite l’immagine), la prossima mossa che porterebbe più vicino alla soluzione del puzzle. Vengono proposte due tipologie diverse di allenamento: il Supervised Fine-Tuning e il Group Relative Policy Optimization. Il modello utilizzato come base per gli allenamenti è Gemma 3, ad oggi l’ultimo modello multimodale proposto da Google. Il dataset esplorato in questo lavoro comprende puzzle reali estratti dalla piattaforma open-source Lichess, valorizzati con immagini della scacchiera per valutare l’importanza della multimodalità. Gli esperimenti effettuati dimostrano che, dopo una fase di allenamento mirato alla generazione della prossima mossa migliore per la risoluzione del puzzle, un MLLM a cui sono fornite anche le immagini della scacchiera, mostra performance migliori rispetto ad un modello allenato unicamente sul testo.

Abstract
Tipologia del documento
Tesi di laurea (Laurea)
Autore della tesi
Samorì, Andrea
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Multimodal Large Language Model,Reinforcement Learning,Fine-Tuning,Chess Puzzle Solving,Natural Language Processing
Data di discussione della Tesi
27 Novembre 2025
URI

Altri metadati

Gestione del documento: Visualizza il documento

^