The Fokker-Planck equation as model for the stochastic gradient descent in deep learning

Miserocchi, Andrea (2019) The Fokker-Planck equation as model for the stochastic gradient descent in deep learning. [Laurea], Università di Bologna, Corso di Studio in Fisica [L-DM270], Documento ad accesso riservato.

Salva citazione

Documenti full-text disponibili:

Documento PDF (Thesis)
Full-text accessibile solo agli utenti istituzionali dell'Ateneo
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (1MB) | Contatta l'autore

Abstract

La discesa stocastica del gradiente (SGD) è alla base degli algoritmi di ottimizzazione di reti di Deep Learning più usati in AI, dal riconoscimento delle immagini all’elaborazione del linguaggio naturale. Questa tesi si propone di descrivere un modello basato sull’equazione di Fokker-Planck della dinamica del SGD. Si introduce la teoria dei processi stocastici, con particolare enfasi sulle equazioni di Langevin e sull’equazione di Fokker-Planck. Si mostra come il SGD minimizzi un funzionale sulla densità di probabilità dei pesi, non dipendente direttamente dalla funzione di costo. Infine si discutono le implicazioni di questa inferenza variazionale ottenuta dal SGD.

Abstract

Tipologia del documento

Tesi di laurea (Laurea)

Autore della tesi

Miserocchi, Andrea

Relatore della tesi

Fioresi, Rita

Scuola

Scienze

Corso di studio

Fisica [L-DM270]

Ordinamento Cds