Sanchini, Manuel
(2024)
Autoapprendimento non supervisionato end-to-end di una rete neurale per object detection.
[Laurea magistrale], Università di Bologna, Corso di Studio in
Ingegneria elettronica [LM-DM270], Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore.
(
Contatta l'autore)
Abstract
L’Object Detection è un campo dell’intelligenza artificiale che si occupa di rilevare, classificare e localizzare oggetti in immagini o video. Questa tecnologia, impiegata in vari ambiti, richiede modelli avanzati che analizzano dati visivi, spesso addestrati con tecniche di apprendimento supervisionato, basate su dataset etichettati. Tuttavia, tali dataset sono costosi e complessi da ottenere.
Per superare questo limite, si utilizza l’apprendimento non supervisionato, in particolare l’apprendimento auto-supervisionato (self-supervised), in cui il modello genera autonomamente le etichette necessarie. Questo approccio, che elimina l’intervento umano, consente l’addestramento end-to-end, ottimizzando l’intero processo e riducendo errori cumulativi.
Il mio lavoro sfrutta un sistema auto-supervisionato basato su Vision Transformer (ViT) e si articola in tre componenti principali:
DINO (DIstillation with No Labels): una tecnica auto-supervisionata che estrae caratteristiche visive utilizzando ViT come base.
CutLER (Cut and Learn): genera automaticamente annotazioni non supervisionate tramite MaskCut, sfruttando le caratteristiche estratte da DINO.
DETR (DEtection TRansformer): utilizza le annotazioni di CutLER per rilevare e classificare oggetti, ottimizzando la previsione di posizioni e categorie.
In questo sistema, il ViT addestrato con DINO funge da estrattore di caratteristiche e supporto per la generazione delle annotazioni con CutLER, mentre DETR chiude il ciclo addestrandosi su queste annotazioni. L’efficacia del metodo è valutata attraverso le feature prodotte da DINO e i risultati di MaskCut, evidenziando i vantaggi dell’approccio auto-supervisionato nell’object detection.
Abstract
L’Object Detection è un campo dell’intelligenza artificiale che si occupa di rilevare, classificare e localizzare oggetti in immagini o video. Questa tecnologia, impiegata in vari ambiti, richiede modelli avanzati che analizzano dati visivi, spesso addestrati con tecniche di apprendimento supervisionato, basate su dataset etichettati. Tuttavia, tali dataset sono costosi e complessi da ottenere.
Per superare questo limite, si utilizza l’apprendimento non supervisionato, in particolare l’apprendimento auto-supervisionato (self-supervised), in cui il modello genera autonomamente le etichette necessarie. Questo approccio, che elimina l’intervento umano, consente l’addestramento end-to-end, ottimizzando l’intero processo e riducendo errori cumulativi.
Il mio lavoro sfrutta un sistema auto-supervisionato basato su Vision Transformer (ViT) e si articola in tre componenti principali:
DINO (DIstillation with No Labels): una tecnica auto-supervisionata che estrae caratteristiche visive utilizzando ViT come base.
CutLER (Cut and Learn): genera automaticamente annotazioni non supervisionate tramite MaskCut, sfruttando le caratteristiche estratte da DINO.
DETR (DEtection TRansformer): utilizza le annotazioni di CutLER per rilevare e classificare oggetti, ottimizzando la previsione di posizioni e categorie.
In questo sistema, il ViT addestrato con DINO funge da estrattore di caratteristiche e supporto per la generazione delle annotazioni con CutLER, mentre DETR chiude il ciclo addestrandosi su queste annotazioni. L’efficacia del metodo è valutata attraverso le feature prodotte da DINO e i risultati di MaskCut, evidenziando i vantaggi dell’approccio auto-supervisionato nell’object detection.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Sanchini, Manuel
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Indirizzo
INGEGNERIA ELETTRONICA
Ordinamento Cds
DM270
Parole chiave
AI, transformer, Features, Modelli, reti convoluzionali, encoder, decoder, loss, attenzione, supervisionato, etichette, informazioni
Data di discussione della Tesi
4 Dicembre 2024
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Sanchini, Manuel
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Indirizzo
INGEGNERIA ELETTRONICA
Ordinamento Cds
DM270
Parole chiave
AI, transformer, Features, Modelli, reti convoluzionali, encoder, decoder, loss, attenzione, supervisionato, etichette, informazioni
Data di discussione della Tesi
4 Dicembre 2024
URI
Gestione del documento: