Documenti full-text disponibili:
      
    
  
  
    
      Abstract
      Il Reinforcement Learning (RL) ha ottenuto grandi risulti negli ultimi anni, superando l'uomo nei giochi Atari, nel GO ed in e-sports come Starcraft e Dota2. Può però il RL affrontare sfide complesse che richiedono varie abilità cognitive per superare brillantemente situazioni complesse e variegate, come potrebbe fare un animale o un umano? Per dimostrarlo sarà necessario un benchmark robusto e significativo, come la competizione Animal-AI Olympics. I suoi organizzatori hanno messo a disposizione un'arena in cui un agente si muoverà ed interagirà con vari oggetti, con l’obiettivo di procurarsi del cibo. La competizione include 10 categorie di test, ognuna atta a dimostrare il possesso di una certa capacità cognitiva. L’agente avrà due input sensoriali: visione monoculare e percezione della propria velocità. In questo lavoro si è utilizzato PPO come algoritmo di RL, semplificando i dati della visione considerando solo i colori legati a stimoli positivi e negativi e dividendo l’immagine in quadranti, così da avere input più significativi. L'addestramento è stato coadiuvato da curriculum learning e reward shaping, unitamente alla definizione di scenari istruttivi per l’agente. Con il primo si è voluto insegnare all'agente dapprima la relazione fra oggetti e punteggio ricevuto, per poi addestrarlo ad agire in ambiente più complessi. Con il secondo, qui basato sulle velocità percepite, si è spinto PPO a trovare strategie intelligenti per esplorare l’arena ed ottenere premi. Sono state inoltre condotte delle sperimentazioni su approcci multi-modello, analizzandone i risultati ottenuti. Alcune indagini preliminari hanno riguardato il problema dello SLAM. Il risultato finale è stato un 9° posto su 64 partecipanti, oltre ad un premio sulla categoria 2 (esibizione di preferenze). I risultati dimostrano la bontà delle scelte intraprese sopratutto nell'esibire abilità cognitive più basilari, motivo per cui il percorso per arrivare ad un modello davvero generale è ancora lungo.
     
    
      Abstract
      Il Reinforcement Learning (RL) ha ottenuto grandi risulti negli ultimi anni, superando l'uomo nei giochi Atari, nel GO ed in e-sports come Starcraft e Dota2. Può però il RL affrontare sfide complesse che richiedono varie abilità cognitive per superare brillantemente situazioni complesse e variegate, come potrebbe fare un animale o un umano? Per dimostrarlo sarà necessario un benchmark robusto e significativo, come la competizione Animal-AI Olympics. I suoi organizzatori hanno messo a disposizione un'arena in cui un agente si muoverà ed interagirà con vari oggetti, con l’obiettivo di procurarsi del cibo. La competizione include 10 categorie di test, ognuna atta a dimostrare il possesso di una certa capacità cognitiva. L’agente avrà due input sensoriali: visione monoculare e percezione della propria velocità. In questo lavoro si è utilizzato PPO come algoritmo di RL, semplificando i dati della visione considerando solo i colori legati a stimoli positivi e negativi e dividendo l’immagine in quadranti, così da avere input più significativi. L'addestramento è stato coadiuvato da curriculum learning e reward shaping, unitamente alla definizione di scenari istruttivi per l’agente. Con il primo si è voluto insegnare all'agente dapprima la relazione fra oggetti e punteggio ricevuto, per poi addestrarlo ad agire in ambiente più complessi. Con il secondo, qui basato sulle velocità percepite, si è spinto PPO a trovare strategie intelligenti per esplorare l’arena ed ottenere premi. Sono state inoltre condotte delle sperimentazioni su approcci multi-modello, analizzandone i risultati ottenuti. Alcune indagini preliminari hanno riguardato il problema dello SLAM. Il risultato finale è stato un 9° posto su 64 partecipanti, oltre ad un premio sulla categoria 2 (esibizione di preferenze). I risultati dimostrano la bontà delle scelte intraprese sopratutto nell'esibire abilità cognitive più basilari, motivo per cui il percorso per arrivare ad un modello davvero generale è ancora lungo.
     
  
  
    
    
      Tipologia del documento
      Tesi di laurea
(Laurea magistrale)
      
      
      
      
        
      
        
          Autore della tesi
          Pergolini, Diego
          
        
      
        
          Relatore della tesi
          
          
        
      
        
          Correlatore della tesi
          
          
        
      
        
          Scuola
          
          
        
      
        
          Corso di studio
          
          
        
      
        
      
        
      
        
          Ordinamento Cds
          DM270
          
        
      
        
          Parole chiave
          Reinforcement Learning,Machine Learning,Intelligenza Artificiale,PPO,Reward Shaping,Animal-AI Olympics,Depth-Estimation,Model-Free Rl,Policy-Based,Actor-Critic
          
        
      
        
          Data di discussione della Tesi
          12 Dicembre 2019
          
        
      
      URI
      
      
     
   
  
    Altri metadati
    
      Tipologia del documento
      Tesi di laurea
(NON SPECIFICATO)
      
      
      
      
        
      
        
          Autore della tesi
          Pergolini, Diego
          
        
      
        
          Relatore della tesi
          
          
        
      
        
          Correlatore della tesi
          
          
        
      
        
          Scuola
          
          
        
      
        
          Corso di studio
          
          
        
      
        
      
        
      
        
          Ordinamento Cds
          DM270
          
        
      
        
          Parole chiave
          Reinforcement Learning,Machine Learning,Intelligenza Artificiale,PPO,Reward Shaping,Animal-AI Olympics,Depth-Estimation,Model-Free Rl,Policy-Based,Actor-Critic
          
        
      
        
          Data di discussione della Tesi
          12 Dicembre 2019
          
        
      
      URI
      
      
     
   
  
  
  
  
  
    
    Statistica sui download
    
    
  
  
    
      Gestione del documento: 
      
        