Salvatori, Stefano
 
(2021)
Text-to-Image Information Retrieval Basato sul Transformer Lineare Performer: Sviluppo e Applicazioni per l'Industria della Moda.
[Laurea magistrale], Università di Bologna, Corso di Studio in 
Ingegneria e scienze informatiche [LM-DM270] - Cesena, Documento full-text non disponibile
  
 
  
  
        
        
	
  
  
  
  
  
  
  
    
      Il full-text non è disponibile per scelta dell'autore.
      
        (
Contatta l'autore)
      
    
  
    
  
  
    
      Abstract
      Il lavoro svolto si inserisce nell’ambito dei Neural Ranking Models, modelli che stanno gradualmente superando lo stato dell’arte raggiunto dai classici sistemi di Information Retrieval sfruttando i più recenti sviluppi ottenuti sulle reti neurali profonde. Una delle architetture più utilizzate in questo contesto è quella del Transformer, che si è dimostrata essere estremamente versatile ed efficace in svariati domini applicativi. Uno dei problemi che caratterizzano però questo modello è la complessità spaziale e
temporale quadratica rispetto alla dimensione dell’input che non permette di sfruttare una dimensione del batch size ottimale e una lunghezza delle sequenze in input sufficientemente grande. Lo scopo di questo lavoro è studiare i miglioramenti ottenibili in un sistema di Information Retrieval basato su Neural Ranking Models applicando il transformer efficiente Performer.  È stato scelto come caso di studio il dominio della moda, per il quale sono state proposte in letteratura diverse soluzioni nell’ambito dell’intelligenza artificiale per task di retrieval e non. Gao, Dehong, et al. in particolare, hanno ottenuto risultati
allo stato dell’arte sviluppando FashionBERT, un neural ranking model basato BERT applicato a problemi di Text-Image Matching (dire se una descrizione ed un’immagine sono o meno legate allo stesso prodotto) e Retrieval (data una query testuale, ritrovare l’immagine dell’indumento che descrive).
In questo lavoro si vuole mostrate innanzitutto come sia possibile migliorare i risultati di FashionBERT sia in termini di efficacia che efficienza sostituendo il layer di attention quadratica con la rispettiva versione lineare proposta in Performer. Vengono infine condotti ulteriori esperimenti applicando il modello sviluppato
ad un task di Metric Learning dimostrando che è possibile in questo modo superare lo stato dell'arte ottenuto nel paper originale di FashionBERT.
     
    
      Abstract
      Il lavoro svolto si inserisce nell’ambito dei Neural Ranking Models, modelli che stanno gradualmente superando lo stato dell’arte raggiunto dai classici sistemi di Information Retrieval sfruttando i più recenti sviluppi ottenuti sulle reti neurali profonde. Una delle architetture più utilizzate in questo contesto è quella del Transformer, che si è dimostrata essere estremamente versatile ed efficace in svariati domini applicativi. Uno dei problemi che caratterizzano però questo modello è la complessità spaziale e
temporale quadratica rispetto alla dimensione dell’input che non permette di sfruttare una dimensione del batch size ottimale e una lunghezza delle sequenze in input sufficientemente grande. Lo scopo di questo lavoro è studiare i miglioramenti ottenibili in un sistema di Information Retrieval basato su Neural Ranking Models applicando il transformer efficiente Performer.  È stato scelto come caso di studio il dominio della moda, per il quale sono state proposte in letteratura diverse soluzioni nell’ambito dell’intelligenza artificiale per task di retrieval e non. Gao, Dehong, et al. in particolare, hanno ottenuto risultati
allo stato dell’arte sviluppando FashionBERT, un neural ranking model basato BERT applicato a problemi di Text-Image Matching (dire se una descrizione ed un’immagine sono o meno legate allo stesso prodotto) e Retrieval (data una query testuale, ritrovare l’immagine dell’indumento che descrive).
In questo lavoro si vuole mostrate innanzitutto come sia possibile migliorare i risultati di FashionBERT sia in termini di efficacia che efficienza sostituendo il layer di attention quadratica con la rispettiva versione lineare proposta in Performer. Vengono infine condotti ulteriori esperimenti applicando il modello sviluppato
ad un task di Metric Learning dimostrando che è possibile in questo modo superare lo stato dell'arte ottenuto nel paper originale di FashionBERT.
     
  
  
    
    
      Tipologia del documento
      Tesi di laurea
(Laurea magistrale)
      
      
      
      
        
      
        
          Autore della tesi
          Salvatori, Stefano
          
        
      
        
          Relatore della tesi
          
          
        
      
        
      
        
          Scuola
          
          
        
      
        
          Corso di studio
          
          
        
      
        
      
        
      
        
          Ordinamento Cds
          DM270
          
        
      
        
          Parole chiave
          Text-to-Image Retrieval,Metric Learning,Transformer Efficienti,Fashion Industry,Performer,Flax
          
        
      
        
          Data di discussione della Tesi
          26 Marzo 2021
          
        
      
      URI
      
      
     
   
  
    Altri metadati
    
      Tipologia del documento
      Tesi di laurea
(NON SPECIFICATO)
      
      
      
      
        
      
        
          Autore della tesi
          Salvatori, Stefano
          
        
      
        
          Relatore della tesi
          
          
        
      
        
      
        
          Scuola
          
          
        
      
        
          Corso di studio
          
          
        
      
        
      
        
      
        
          Ordinamento Cds
          DM270
          
        
      
        
          Parole chiave
          Text-to-Image Retrieval,Metric Learning,Transformer Efficienti,Fashion Industry,Performer,Flax
          
        
      
        
          Data di discussione della Tesi
          26 Marzo 2021
          
        
      
      URI
      
      
     
   
  
  
  
  
  
  
    
      Gestione del documento: 
      
        