Reinforcement Learning: un caso di studio nell'ambito della Animal-AI Olympics

Pergolini, Diego (2019) Reinforcement Learning: un caso di studio nell'ambito della Animal-AI Olympics. [Laurea magistrale], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [LM-DM270] - Cesena
Documenti full-text disponibili:
[img] Documento PDF (Thesis)
Disponibile con Licenza: Creative Commons: Attribuzione - Non commerciale - Condividi allo stesso modo 3.0 (CC BY-NC-SA 3.0)

Download (24MB)

Abstract

Il Reinforcement Learning (RL) ha ottenuto grandi risulti negli ultimi anni, superando l'uomo nei giochi Atari, nel GO ed in e-sports come Starcraft e Dota2. Può però il RL affrontare sfide complesse che richiedono varie abilità cognitive per superare brillantemente situazioni complesse e variegate, come potrebbe fare un animale o un umano? Per dimostrarlo sarà necessario un benchmark robusto e significativo, come la competizione Animal-AI Olympics. I suoi organizzatori hanno messo a disposizione un'arena in cui un agente si muoverà ed interagirà con vari oggetti, con l’obiettivo di procurarsi del cibo. La competizione include 10 categorie di test, ognuna atta a dimostrare il possesso di una certa capacità cognitiva. L’agente avrà due input sensoriali: visione monoculare e percezione della propria velocità. In questo lavoro si è utilizzato PPO come algoritmo di RL, semplificando i dati della visione considerando solo i colori legati a stimoli positivi e negativi e dividendo l’immagine in quadranti, così da avere input più significativi. L'addestramento è stato coadiuvato da curriculum learning e reward shaping, unitamente alla definizione di scenari istruttivi per l’agente. Con il primo si è voluto insegnare all'agente dapprima la relazione fra oggetti e punteggio ricevuto, per poi addestrarlo ad agire in ambiente più complessi. Con il secondo, qui basato sulle velocità percepite, si è spinto PPO a trovare strategie intelligenti per esplorare l’arena ed ottenere premi. Sono state inoltre condotte delle sperimentazioni su approcci multi-modello, analizzandone i risultati ottenuti. Alcune indagini preliminari hanno riguardato il problema dello SLAM. Il risultato finale è stato un 9° posto su 64 partecipanti, oltre ad un premio sulla categoria 2 (esibizione di preferenze). I risultati dimostrano la bontà delle scelte intraprese sopratutto nell'esibire abilità cognitive più basilari, motivo per cui il percorso per arrivare ad un modello davvero generale è ancora lungo.

Abstract
Tipologia del documento
Tesi di laurea (Laurea magistrale)
Autore della tesi
Pergolini, Diego
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Reinforcement Learning,Machine Learning,Intelligenza Artificiale,PPO,Reward Shaping,Animal-AI Olympics,Depth-Estimation,Model-Free Rl,Policy-Based,Actor-Critic
Data di discussione della Tesi
12 Dicembre 2019
URI

Altri metadati

Statistica sui download

Gestione del documento: Visualizza il documento

^