Foschi, Virginia
(2024)
Insegnare ai Large Language Models l'Arte del Ragionamento con l'Utilizzo e il Posizionamento dei Thinking Tokens.
[Laurea], Università di Bologna, Corso di Studio in
Ingegneria e scienze informatiche [L-DM270] - Cesena, Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore.
(
Contatta l'autore)
Abstract
Migliorare le capacità di ragionamento dei modelli di linguaggio di grandi dimensioni (LLM) è diventato un'area critica di ricerca nell'intelligenza artificiale. La scarsità di dati di alta qualità per compiti complessi di ragionamento ha spinto i ricercatori a esplorare approcci alternativi che si concentrano sulla modulazione e sull'interpolazione delle informazioni all'interno di questi modelli. Questa tesi presenta un'architettura innovativa end-to-end che apprende a identificare i punti ottimali in cui il modello deve fare una pausa e svolgere ulteriori calcoli prima di generare una risposta. Il nostro approccio riprende il concetto di ``thinking token" introdotto nel paper ``Think before you speak: training language models with pause tokens" \citep{Pause-Tokens} lasciando però al modello la libertà di inserirli in posizioni strategiche della sequenza di input. Questi token fungono da segnali per il modello, incoraggiandolo a interrompere temporaneamente la generazione del testo e a eseguire un ragionamento più approfondito sui dati forniti in modo da migliorare la qualità e la precisione delle risposte generate per domande particolarmente complesse. Per dimostrare l'efficacia del nostro metodo, conduciamo esperimenti su alcuni dataset di question answering, in particolare su domande a risposta multipla. I risultati mostrano che, lasciare libero il modello di decidere dove inserire i thinking tokens nelle sequenze di input, non solo migliora le performance del 25\% rispetto alle configurazioni predefinite, ma consente anche di mantenere l'efficienza in termini di risorse computazionali. L'architettura proposta riesce a bilanciare la necessità di una riflessione approfondita con la limitazione delle risorse, evitando il sovraccarico computazionale spesso associato a tecniche di ragionamento più elaborate.
Abstract
Migliorare le capacità di ragionamento dei modelli di linguaggio di grandi dimensioni (LLM) è diventato un'area critica di ricerca nell'intelligenza artificiale. La scarsità di dati di alta qualità per compiti complessi di ragionamento ha spinto i ricercatori a esplorare approcci alternativi che si concentrano sulla modulazione e sull'interpolazione delle informazioni all'interno di questi modelli. Questa tesi presenta un'architettura innovativa end-to-end che apprende a identificare i punti ottimali in cui il modello deve fare una pausa e svolgere ulteriori calcoli prima di generare una risposta. Il nostro approccio riprende il concetto di ``thinking token" introdotto nel paper ``Think before you speak: training language models with pause tokens" \citep{Pause-Tokens} lasciando però al modello la libertà di inserirli in posizioni strategiche della sequenza di input. Questi token fungono da segnali per il modello, incoraggiandolo a interrompere temporaneamente la generazione del testo e a eseguire un ragionamento più approfondito sui dati forniti in modo da migliorare la qualità e la precisione delle risposte generate per domande particolarmente complesse. Per dimostrare l'efficacia del nostro metodo, conduciamo esperimenti su alcuni dataset di question answering, in particolare su domande a risposta multipla. I risultati mostrano che, lasciare libero il modello di decidere dove inserire i thinking tokens nelle sequenze di input, non solo migliora le performance del 25\% rispetto alle configurazioni predefinite, ma consente anche di mantenere l'efficienza in termini di risorse computazionali. L'architettura proposta riesce a bilanciare la necessità di una riflessione approfondita con la limitazione delle risorse, evitando il sovraccarico computazionale spesso associato a tecniche di ragionamento più elaborate.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Foschi, Virginia
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Natural Language Processing,Large Language Models,Neural Reasoning,Self-Reflection,Thinking Tokens
Data di discussione della Tesi
3 Ottobre 2024
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Foschi, Virginia
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Natural Language Processing,Large Language Models,Neural Reasoning,Self-Reflection,Thinking Tokens
Data di discussione della Tesi
3 Ottobre 2024
URI
Gestione del documento: