Text-to-Image Information Retrieval Basato sul Transformer Lineare Performer: Sviluppo e Applicazioni per l'Industria della Moda

Salvatori, Stefano (2021) Text-to-Image Information Retrieval Basato sul Transformer Lineare Performer: Sviluppo e Applicazioni per l'Industria della Moda. [Laurea magistrale], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [LM-DM270] - Cesena, Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore. (Contatta l'autore)

Abstract

Il lavoro svolto si inserisce nell’ambito dei Neural Ranking Models, modelli che stanno gradualmente superando lo stato dell’arte raggiunto dai classici sistemi di Information Retrieval sfruttando i più recenti sviluppi ottenuti sulle reti neurali profonde. Una delle architetture più utilizzate in questo contesto è quella del Transformer, che si è dimostrata essere estremamente versatile ed efficace in svariati domini applicativi. Uno dei problemi che caratterizzano però questo modello è la complessità spaziale e temporale quadratica rispetto alla dimensione dell’input che non permette di sfruttare una dimensione del batch size ottimale e una lunghezza delle sequenze in input sufficientemente grande. Lo scopo di questo lavoro è studiare i miglioramenti ottenibili in un sistema di Information Retrieval basato su Neural Ranking Models applicando il transformer efficiente Performer. È stato scelto come caso di studio il dominio della moda, per il quale sono state proposte in letteratura diverse soluzioni nell’ambito dell’intelligenza artificiale per task di retrieval e non. Gao, Dehong, et al. in particolare, hanno ottenuto risultati allo stato dell’arte sviluppando FashionBERT, un neural ranking model basato BERT applicato a problemi di Text-Image Matching (dire se una descrizione ed un’immagine sono o meno legate allo stesso prodotto) e Retrieval (data una query testuale, ritrovare l’immagine dell’indumento che descrive). In questo lavoro si vuole mostrate innanzitutto come sia possibile migliorare i risultati di FashionBERT sia in termini di efficacia che efficienza sostituendo il layer di attention quadratica con la rispettiva versione lineare proposta in Performer. Vengono infine condotti ulteriori esperimenti applicando il modello sviluppato ad un task di Metric Learning dimostrando che è possibile in questo modo superare lo stato dell'arte ottenuto nel paper originale di FashionBERT.

Abstract
Tipologia del documento
Tesi di laurea (Laurea magistrale)
Autore della tesi
Salvatori, Stefano
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Text-to-Image Retrieval,Metric Learning,Transformer Efficienti,Fashion Industry,Performer,Flax
Data di discussione della Tesi
26 Marzo 2021
URI

Altri metadati

Gestione del documento: Visualizza il documento

^