Activity Recognition e Captioning da Video con Deep Learning: Analisi Comparativa dello Stato dell'Arte mediante Nuovi Video Set Artificiali

Cichetti, Federico (2020) Activity Recognition e Captioning da Video con Deep Learning: Analisi Comparativa dello Stato dell'Arte mediante Nuovi Video Set Artificiali. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena

Salva citazione

Documenti full-text disponibili:

Documento PDF (Thesis)
Disponibile con Licenza: Creative Commons: Attribuzione - Non commerciale - Condividi allo stesso modo 3.0 (CC BY-NC-SA 3.0)
Download (6MB)

Abstract

L’introduzione del Machine Learning nel campo della Computer Vision ha permesso il raggiungimento di risultati straordinari nell’analisi di immagini. Usando reti neurali convoluzionali (CNN), è possibile identificare gli oggetti in una fotografia e quindi carpirne un contesto generale: tuttavia, se lo scopo finale è quello di riconoscere azioni complesse che si sviluppano nel tempo, non basta un singolo fotogramma. In questo senso, il video è il tipo di dato in grado di rappresentare lo svolgimento di attività nella maniera più naturale, poiché raccoglie sia gli aspetti spaziali relativi ai singoli fotogrammi che quelli temporali legati alla loro successione sequenziale. L’esplosione della diffusione di questo tipo di dato attraverso i social network ha permesso, negli ultimi anni, l’arricchimento dei dataset video e il conseguente sviluppo di soluzioni di deep learning apposite sempre più accurate ed efficienti. In questo elaborato si descrivono le architetture allo Stato dell’Arte che si occupano della comprensione spazio-temporale dei video e della loro classificazione in base all’attività catturata (nel caso dell’Action Recognition) o della loro descrizione in linguaggio naturale (per il Video Captioning). Il nostro lavoro è orientato verso l’applicazione di questi sistemi in un contesto di produzione industriale, per riconoscere interventi effettuati su macchinari o attività simili. Data la scarsa disponibilità di dati specifici per un tale scenario, viene costruito e proposto un nuovo dataset di video artificiali (blender-industrial) sviluppati attraverso il software di modellazione 3D Blender e il linguaggio di scripting Python. Si descrivono le scelte progettuali e le caratteristiche implementative di tale lavoro. Infine, si confrontano alcune soluzioni per l’Action Recognition a livello sperimentale, misurandone l’accuratezza sia sui principali dataset dedicati a questo task che sul nostro nuovo dataset.

Abstract

Tipologia del documento

Tesi di laurea (Laurea)

Autore della tesi

Cichetti, Federico

Relatore della tesi

Moro, Gianluca

Scuola

Scienze

Corso di studio

Ingegneria e scienze informatiche [L-DM270] - Cesena

Indirizzo