The Fokker-Planck equation as model for the stochastic gradient descent in deep learning

Miserocchi, Andrea (2019) The Fokker-Planck equation as model for the stochastic gradient descent in deep learning. [Laurea], Università di Bologna, Corso di Studio in Fisica [L-DM270], Documento ad accesso riservato.
Documenti full-text disponibili:
[img] Documento PDF (Thesis)
Full-text accessibile solo agli utenti istituzionali dell'Ateneo
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato

Download (1MB) | Contatta l'autore

Abstract

La discesa stocastica del gradiente (SGD) è alla base degli algoritmi di ottimizzazione di reti di Deep Learning più usati in AI, dal riconoscimento delle immagini all’elaborazione del linguaggio naturale. Questa tesi si propone di descrivere un modello basato sull’equazione di Fokker-Planck della dinamica del SGD. Si introduce la teoria dei processi stocastici, con particolare enfasi sulle equazioni di Langevin e sull’equazione di Fokker-Planck. Si mostra come il SGD minimizzi un funzionale sulla densità di probabilità dei pesi, non dipendente direttamente dalla funzione di costo. Infine si discutono le implicazioni di questa inferenza variazionale ottenuta dal SGD.

Abstract
Tipologia del documento
Tesi di laurea (Laurea)
Autore della tesi
Miserocchi, Andrea
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Deep Learning,Fokker-Planck equation,Stochastic differential equation,Stochastic Gradient Descent,Deep feedforward network,Langevin equation
Data di discussione della Tesi
14 Giugno 2019
URI

Altri metadati

Statistica sui download

Gestione del documento: Visualizza il documento

^