Documenti full-text disponibili:
![[thumbnail of Thesis]](https://amslaurea.unibo.it/style/images/fileicons/application_pdf.png) |
Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (1MB)
|
Abstract
Il principale svantaggio dell’uso dei modelli di IA generativa per la matematica avanzata è che non sono motori deterministici di ragionamento logico. Poiché i modelli neurali sono probabilistici, possono produrre output apparentemente convincenti che però contengono errori sottili, difficili da rilevare senza un’attenta verifica algoritmica.
I metodi simbolici possono in larga parte affrontare questo problema, eseguendo calcoli esatti e deterministici tramite esecuzione di codice. Tuttavia, risolvere un problema completo richiede in genere un piano esplicito: devono essere specificate la corretta sequenza di invocazioni degli strumenti e le dipendenze tra i risultati intermedi, e questo spesso richiede intervento umano. La nostra ipotesi è che questo carico di pianificazione possa essere ridotto usando modelli neurali per orchestrare l’uso degli strumenti, mentre i risolutori simbolici forniscono il calcolo esatto.
In questa tesi dimostriamo un workflow end-to-end che combina modelli neurali e risolutori simbolici per risolvere problemi di algebra lineare tramite interazioni con strumenti, in un contesto controllato e verificabile con una piccola libreria di tool. I nostri risultati mostrano che, partendo da un piccolo modello base pre-addestrato (Qwen2.5-3B), è possibile raggiungere il 90% di accuratezza sul test set su tracce di problema che richiedono fino a tre interazioni con strumenti.
La pipeline include generazione sintetica del dataset, distillazione, supervised fine-tuning (SFT) e reinforcement learning tramite Group Sequence Policy Optimization (GSPO). Usando fine-tuning efficiente in termini di parametri (LoRA) e GPU cloud on-demand, l’intera pipeline è riproducibile con un budget di 75 dollari. Questo fornisce una ricetta concreta per i professionisti che vogliono addestrare modelli self-hostable capaci di usare strumenti, e un modello didattico per studenti che imparano a costruire agenti con tool-calling oltre il prompt engineering.
Abstract
Il principale svantaggio dell’uso dei modelli di IA generativa per la matematica avanzata è che non sono motori deterministici di ragionamento logico. Poiché i modelli neurali sono probabilistici, possono produrre output apparentemente convincenti che però contengono errori sottili, difficili da rilevare senza un’attenta verifica algoritmica.
I metodi simbolici possono in larga parte affrontare questo problema, eseguendo calcoli esatti e deterministici tramite esecuzione di codice. Tuttavia, risolvere un problema completo richiede in genere un piano esplicito: devono essere specificate la corretta sequenza di invocazioni degli strumenti e le dipendenze tra i risultati intermedi, e questo spesso richiede intervento umano. La nostra ipotesi è che questo carico di pianificazione possa essere ridotto usando modelli neurali per orchestrare l’uso degli strumenti, mentre i risolutori simbolici forniscono il calcolo esatto.
In questa tesi dimostriamo un workflow end-to-end che combina modelli neurali e risolutori simbolici per risolvere problemi di algebra lineare tramite interazioni con strumenti, in un contesto controllato e verificabile con una piccola libreria di tool. I nostri risultati mostrano che, partendo da un piccolo modello base pre-addestrato (Qwen2.5-3B), è possibile raggiungere il 90% di accuratezza sul test set su tracce di problema che richiedono fino a tre interazioni con strumenti.
La pipeline include generazione sintetica del dataset, distillazione, supervised fine-tuning (SFT) e reinforcement learning tramite Group Sequence Policy Optimization (GSPO). Usando fine-tuning efficiente in termini di parametri (LoRA) e GPU cloud on-demand, l’intera pipeline è riproducibile con un budget di 75 dollari. Questo fornisce una ricetta concreta per i professionisti che vogliono addestrare modelli self-hostable capaci di usare strumenti, e un modello didattico per studenti che imparano a costruire agenti con tool-calling oltre il prompt engineering.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Vasile, Razvan Florian
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Neurosymbolic Reasoning,Tool-Augmented Large Language Models,Linear Algebra,Synthetic Dataset Generation,Knowledge Distillation,Supervised Fine-Tuning (SFT),Group Sequence Policy Optimization (GSPO),Reinforcement Learning from Verifiable Rewards (RLVR),Structured Tool Calling,Parameter-Efficient Fine-Tuning (LoRA),Mathematics
Data di discussione della Tesi
13 Marzo 2026
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Vasile, Razvan Florian
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Neurosymbolic Reasoning,Tool-Augmented Large Language Models,Linear Algebra,Synthetic Dataset Generation,Knowledge Distillation,Supervised Fine-Tuning (SFT),Group Sequence Policy Optimization (GSPO),Reinforcement Learning from Verifiable Rewards (RLVR),Structured Tool Calling,Parameter-Efficient Fine-Tuning (LoRA),Mathematics
Data di discussione della Tesi
13 Marzo 2026
URI
Statistica sui download
Gestione del documento: