Documenti full-text disponibili:
Abstract
Nel mondo dell’intelligenza artificiale applicata agli scacchi, i Large Language
Model (LLM) rappresentano una nuova strada da esplorare grazie alle loro
capacità di analizzare e comprendere il testo. Il legame tra LLM e gli scacchi è
reso possibile dalle varie notazioni testuali, come la Portable Game Notation e
la Forsyth–Edwards Notation, con cui possono essere rappresentate le partite.
Un’evoluzione dei LLM sono i Multimodal Large Language Model (MLLM), i
quali possono analizzare non solo input testuali, ma anche informazioni in altre
modalità, come immagini o audio. Ad oggi, la ricerca si è concentrata sullo
sviluppo di Chess Language Models (CLM), cioè LLM in grado di comprendere
il dominio degli scacchi. Mentre i CLM sono unicamente allenati tramite
testo, in questo lavoro esploriamo l’applicazione dei MLLM per la risoluzione
di puzzle scacchistici, utilizzando anche le immagini della scacchiera come
dati per l’allenamento. Il metodo proposto consiste nel allenare, tramite
Reinforcement Learning (RL), un MLLM in grado di generare, dato lo stato
della scacchiera (sia in formato testuale che tramite l’immagine), la prossima
mossa che porterebbe più vicino alla soluzione del puzzle. Vengono proposte due
tipologie diverse di allenamento: il Supervised Fine-Tuning e il Group Relative
Policy Optimization. Il modello utilizzato come base per gli allenamenti è
Gemma 3, ad oggi l’ultimo modello multimodale proposto da Google. Il dataset
esplorato in questo lavoro comprende puzzle reali estratti dalla piattaforma
open-source Lichess, valorizzati con immagini della scacchiera per valutare
l’importanza della multimodalità. Gli esperimenti effettuati dimostrano che,
dopo una fase di allenamento mirato alla generazione della prossima mossa
migliore per la risoluzione del puzzle, un MLLM a cui sono fornite anche le
immagini della scacchiera, mostra performance migliori rispetto ad un modello
allenato unicamente sul testo.
Abstract
Nel mondo dell’intelligenza artificiale applicata agli scacchi, i Large Language
Model (LLM) rappresentano una nuova strada da esplorare grazie alle loro
capacità di analizzare e comprendere il testo. Il legame tra LLM e gli scacchi è
reso possibile dalle varie notazioni testuali, come la Portable Game Notation e
la Forsyth–Edwards Notation, con cui possono essere rappresentate le partite.
Un’evoluzione dei LLM sono i Multimodal Large Language Model (MLLM), i
quali possono analizzare non solo input testuali, ma anche informazioni in altre
modalità, come immagini o audio. Ad oggi, la ricerca si è concentrata sullo
sviluppo di Chess Language Models (CLM), cioè LLM in grado di comprendere
il dominio degli scacchi. Mentre i CLM sono unicamente allenati tramite
testo, in questo lavoro esploriamo l’applicazione dei MLLM per la risoluzione
di puzzle scacchistici, utilizzando anche le immagini della scacchiera come
dati per l’allenamento. Il metodo proposto consiste nel allenare, tramite
Reinforcement Learning (RL), un MLLM in grado di generare, dato lo stato
della scacchiera (sia in formato testuale che tramite l’immagine), la prossima
mossa che porterebbe più vicino alla soluzione del puzzle. Vengono proposte due
tipologie diverse di allenamento: il Supervised Fine-Tuning e il Group Relative
Policy Optimization. Il modello utilizzato come base per gli allenamenti è
Gemma 3, ad oggi l’ultimo modello multimodale proposto da Google. Il dataset
esplorato in questo lavoro comprende puzzle reali estratti dalla piattaforma
open-source Lichess, valorizzati con immagini della scacchiera per valutare
l’importanza della multimodalità. Gli esperimenti effettuati dimostrano che,
dopo una fase di allenamento mirato alla generazione della prossima mossa
migliore per la risoluzione del puzzle, un MLLM a cui sono fornite anche le
immagini della scacchiera, mostra performance migliori rispetto ad un modello
allenato unicamente sul testo.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Samorì, Andrea
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Multimodal Large Language Model,Reinforcement Learning,Fine-Tuning,Chess Puzzle Solving,Natural Language Processing
Data di discussione della Tesi
27 Novembre 2025
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Samorì, Andrea
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Multimodal Large Language Model,Reinforcement Learning,Fine-Tuning,Chess Puzzle Solving,Natural Language Processing
Data di discussione della Tesi
27 Novembre 2025
URI
Gestione del documento: