Cichetti, Federico
(2020)
Activity Recognition e Captioning da Video con Deep Learning: Analisi Comparativa dello Stato dell'Arte mediante Nuovi Video Set Artificiali.
[Laurea], Università di Bologna, Corso di Studio in
Ingegneria e scienze informatiche [L-DM270] - Cesena
Documenti full-text disponibili:
Abstract
L’introduzione del Machine Learning nel campo della Computer Vision ha permesso il raggiungimento di risultati straordinari nell’analisi di immagini. Usando reti neurali convoluzionali (CNN), è possibile identificare gli oggetti in una fotografia e quindi carpirne un contesto generale: tuttavia, se lo scopo finale è quello di riconoscere azioni complesse che si sviluppano nel tempo, non basta un singolo fotogramma.
In questo senso, il video è il tipo di dato in grado di rappresentare lo svolgimento di attività nella maniera più naturale, poiché raccoglie sia gli aspetti spaziali relativi ai singoli fotogrammi che quelli temporali legati alla loro successione sequenziale.
L’esplosione della diffusione di questo tipo di dato attraverso i social network ha permesso, negli ultimi anni, l’arricchimento dei dataset video e il conseguente sviluppo di soluzioni di deep learning apposite sempre più accurate ed efficienti.
In questo elaborato si descrivono le architetture allo Stato dell’Arte che si occupano della comprensione spazio-temporale dei video e della loro classificazione in base all’attività catturata (nel caso dell’Action Recognition) o della loro descrizione in linguaggio naturale (per il Video Captioning).
Il nostro lavoro è orientato verso l’applicazione di questi sistemi in un contesto di produzione industriale, per riconoscere interventi effettuati su macchinari o attività simili. Data la scarsa disponibilità di dati specifici per un tale scenario, viene costruito e proposto un nuovo dataset di video artificiali (blender-industrial) sviluppati attraverso il software di modellazione 3D Blender e il linguaggio di scripting Python. Si descrivono le scelte progettuali e le caratteristiche implementative di tale lavoro.
Infine, si confrontano alcune soluzioni per l’Action Recognition a livello sperimentale, misurandone l’accuratezza sia sui principali dataset dedicati a questo task che sul nostro nuovo dataset.
Abstract
L’introduzione del Machine Learning nel campo della Computer Vision ha permesso il raggiungimento di risultati straordinari nell’analisi di immagini. Usando reti neurali convoluzionali (CNN), è possibile identificare gli oggetti in una fotografia e quindi carpirne un contesto generale: tuttavia, se lo scopo finale è quello di riconoscere azioni complesse che si sviluppano nel tempo, non basta un singolo fotogramma.
In questo senso, il video è il tipo di dato in grado di rappresentare lo svolgimento di attività nella maniera più naturale, poiché raccoglie sia gli aspetti spaziali relativi ai singoli fotogrammi che quelli temporali legati alla loro successione sequenziale.
L’esplosione della diffusione di questo tipo di dato attraverso i social network ha permesso, negli ultimi anni, l’arricchimento dei dataset video e il conseguente sviluppo di soluzioni di deep learning apposite sempre più accurate ed efficienti.
In questo elaborato si descrivono le architetture allo Stato dell’Arte che si occupano della comprensione spazio-temporale dei video e della loro classificazione in base all’attività catturata (nel caso dell’Action Recognition) o della loro descrizione in linguaggio naturale (per il Video Captioning).
Il nostro lavoro è orientato verso l’applicazione di questi sistemi in un contesto di produzione industriale, per riconoscere interventi effettuati su macchinari o attività simili. Data la scarsa disponibilità di dati specifici per un tale scenario, viene costruito e proposto un nuovo dataset di video artificiali (blender-industrial) sviluppati attraverso il software di modellazione 3D Blender e il linguaggio di scripting Python. Si descrivono le scelte progettuali e le caratteristiche implementative di tale lavoro.
Infine, si confrontano alcune soluzioni per l’Action Recognition a livello sperimentale, misurandone l’accuratezza sia sui principali dataset dedicati a questo task che sul nostro nuovo dataset.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Cichetti, Federico
Relatore della tesi
Scuola
Corso di studio
Indirizzo
Curriculum ingegneria informatica
Ordinamento Cds
DM270
Parole chiave
action recognition,video captioning,Deep Learning,computer vision,Python
Data di discussione della Tesi
19 Marzo 2020
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Cichetti, Federico
Relatore della tesi
Scuola
Corso di studio
Indirizzo
Curriculum ingegneria informatica
Ordinamento Cds
DM270
Parole chiave
action recognition,video captioning,Deep Learning,computer vision,Python
Data di discussione della Tesi
19 Marzo 2020
URI
Statistica sui download
Gestione del documento: