Del Duchetto, Federica
(2024)
Aligning Large Language Models: A Study on Reinforcement Learning from Human Feedback.
[Laurea], Università di Bologna, Corso di Studio in
Matematica [L-DM270]
Documenti full-text disponibili:
![[thumbnail of Thesis]](https://amslaurea.unibo.it/style/images/fileicons/application_pdf.png) |
Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (561kB)
|
Abstract
Il tema di questa Tesi è il Reinforcement Learning from Human Feedback applicato ai Large Language Models. Nel primo capitolo introdurremo i Language Models e il loro funzionamento, oltre ai possibili problemi che derivano dal loro utilizzo. Nel secondo capitolo tratteremo del processo dell'Alignment, utilizzato non solo per evitare i rischi associati ai Large Language Models ma anche e soprattutto per "istruirli" ad essere utili. Approfondiremo l'area del Learning from Feedback per arrivare al Reinforcement Learning from Human Feedback (RLHF). Analizzeremo alla fine del capitolo le tre fasi in cui si suddivide: Supervised Fine-Tuning, Reward Modeling e Policy Optimization. Nel terzo capitolo faremo l'esempio specifico di InstructGPT, il risultato del RLHF sul modello GPT-3, e introdurremo il SafeRLHF che cerca di bilanciare utilità e sicurezza nei modelli istruiti. Infine, nel quarto capitolo, vedremo il tentativo di applicare il processo del Supervised Fine-Tuning al modello Llama-3.1-8b per istruirlo a rispondere a domande di matematica.
Abstract
Il tema di questa Tesi è il Reinforcement Learning from Human Feedback applicato ai Large Language Models. Nel primo capitolo introdurremo i Language Models e il loro funzionamento, oltre ai possibili problemi che derivano dal loro utilizzo. Nel secondo capitolo tratteremo del processo dell'Alignment, utilizzato non solo per evitare i rischi associati ai Large Language Models ma anche e soprattutto per "istruirli" ad essere utili. Approfondiremo l'area del Learning from Feedback per arrivare al Reinforcement Learning from Human Feedback (RLHF). Analizzeremo alla fine del capitolo le tre fasi in cui si suddivide: Supervised Fine-Tuning, Reward Modeling e Policy Optimization. Nel terzo capitolo faremo l'esempio specifico di InstructGPT, il risultato del RLHF sul modello GPT-3, e introdurremo il SafeRLHF che cerca di bilanciare utilità e sicurezza nei modelli istruiti. Infine, nel quarto capitolo, vedremo il tentativo di applicare il processo del Supervised Fine-Tuning al modello Llama-3.1-8b per istruirlo a rispondere a domande di matematica.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Del Duchetto, Federica
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Language Models,Alignment,Reinforcement Learning from Human Feedback,Supervised Fine-Tuning,Reward Modeling,Policy Optimization,InstructGPT
Data di discussione della Tesi
27 Settembre 2024
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Del Duchetto, Federica
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Language Models,Alignment,Reinforcement Learning from Human Feedback,Supervised Fine-Tuning,Reward Modeling,Policy Optimization,InstructGPT
Data di discussione della Tesi
27 Settembre 2024
URI
Statistica sui download
Gestione del documento: