Apprendimento per rinforzo: la convergenza del Q-learning

Rensi, Giorgia (2021) Apprendimento per rinforzo: la convergenza del Q-learning. [Laurea], Università di Bologna, Corso di Studio in Matematica [L-DM270], Documento ad accesso riservato.

Salva citazione

Documenti full-text disponibili:

Documento PDF (Thesis)
Full-text accessibile solo agli utenti istituzionali dell'Ateneo
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (547kB) | Contatta l'autore

Abstract

La tesi si inquadra nell'ambito dell'Intelligenza Artificiale chiamato Machine Learning (Apprendimento Automatico). Quest’ultimo si occupa dello studio, della progettazione e della realizzazione di algoritmi capaci di automatizzare la risoluzione di determinati problemi introducendo dei meccanismi che consentono a dei macchinari di migliorare, tramite l’esperienza, le proprie capacità e prestazioni nel tempo. In particolare, la tesi si focalizza sul Reinforcement Learning (Apprendimento per Rinforzo) che è l'area del Machine Learning che si occupa del processo decisionale sequenziale. Il probelma RL può essere visto come un caso particolare del problema di interazione per il raggiungimento di un obbiettivo o goal. L'entità che deve raggiungere l'obbiettivo è chiamata agente. L'entità con cui l'agente deve interagire viene denominata ambiente, che corrisponde con tutto ciò che è esterno all'agente. L'interazione agente-ambiente è continuativa, l'agente sceglie un'azione da intraprendere e in risposta l'ambiente cambia stato presentando una nuova situazione da affrontare. In particolare, l'ambiente fornisce all'agente una ricompensa. L'obbiettivo dell'agente è eseguire azioni che massimizzino la ricompensa cumulativa nel lungo periodo. In questo elaborato viene formalizzato il problema del Reinforcement Learning utilizzando il framework del processo decisionale di Markov (MPD). In particolare, viene presentato l’algoritmo Q-learning per la risoluzione di un processo decisionale di Markov finito e viene esposta la dimostrazione della convergenza di tale algoritmo a partire da risultati generali di approssimazione stocastica. Infine, nella tesi vengono analizzati anche algoritmi che estendono il Q-learning, ma sono esposti in forma euristica perché ancora non sono disponibili risultati teorici di convergenza.

Abstract

Tipologia del documento

Tesi di laurea (Laurea)

Autore della tesi

Rensi, Giorgia

Relatore della tesi

Pagliarani, Stefano

Scuola

Scienze

Corso di studio

Matematica [L-DM270]

Ordinamento Cds

DM270

Parole chiave

machine learning reinforcement Q-Learning processo stocastico controllato decisionale di Markov funzione ricompensa transizione stato azione politica azione-valore ritorno funzioni valutazione

Data di discussione della Tesi

16 Dicembre 2021

URI

https://amslaurea.unibo.it/id/eprint/24910

Altri metadati

Statistica sui download

Vedi altre statistiche

Gestione del documento:

Strumenti di navigazione

Collezioni AlmaDL

Apprendimento per rinforzo: la convergenza del Q-learning

Abstract

Altri metadati

Statistica sui download