Insegnare ai Large Language Models l'Arte del Ragionamento con l'Utilizzo e il Posizionamento dei Thinking Tokens

Foschi, Virginia (2024) Insegnare ai Large Language Models l'Arte del Ragionamento con l'Utilizzo e il Posizionamento dei Thinking Tokens. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena, Documento full-text non disponibile

Salva citazione

Il full-text non è disponibile per scelta dell'autore. (Contatta l'autore)

Abstract

Migliorare le capacità di ragionamento dei modelli di linguaggio di grandi dimensioni (LLM) è diventato un'area critica di ricerca nell'intelligenza artificiale. La scarsità di dati di alta qualità per compiti complessi di ragionamento ha spinto i ricercatori a esplorare approcci alternativi che si concentrano sulla modulazione e sull'interpolazione delle informazioni all'interno di questi modelli. Questa tesi presenta un'architettura innovativa end-to-end che apprende a identificare i punti ottimali in cui il modello deve fare una pausa e svolgere ulteriori calcoli prima di generare una risposta. Il nostro approccio riprende il concetto di ``thinking token" introdotto nel paper ``Think before you speak: training language models with pause tokens" \citep{Pause-Tokens} lasciando però al modello la libertà di inserirli in posizioni strategiche della sequenza di input. Questi token fungono da segnali per il modello, incoraggiandolo a interrompere temporaneamente la generazione del testo e a eseguire un ragionamento più approfondito sui dati forniti in modo da migliorare la qualità e la precisione delle risposte generate per domande particolarmente complesse. Per dimostrare l'efficacia del nostro metodo, conduciamo esperimenti su alcuni dataset di question answering, in particolare su domande a risposta multipla. I risultati mostrano che, lasciare libero il modello di decidere dove inserire i thinking tokens nelle sequenze di input, non solo migliora le performance del 25\% rispetto alle configurazioni predefinite, ma consente anche di mantenere l'efficienza in termini di risorse computazionali. L'architettura proposta riesce a bilanciare la necessità di una riflessione approfondita con la limitazione delle risorse, evitando il sovraccarico computazionale spesso associato a tecniche di ragionamento più elaborate.

Abstract

Tipologia del documento

Tesi di laurea (Laurea)

Autore della tesi

Foschi, Virginia

Relatore della tesi

Moro, Gianluca

Correlatore della tesi

Molfetta, Lorenzo

Scuola

Ingegneria e Architettura

Corso di studio