Wu, Nico
(2025)
Analisi Multimodale dell'Arte Generata da AI: Riconoscimento dello Stile e Valutazione dell'Aderenza Semantica con CLIP.
[Laurea], Università di Bologna, Corso di Studio in
Informatica [L-DM270]
Documenti full-text disponibili:
Abstract
L’avvento dei modelli Vision-Language, come CLIP (Contrastive Language-Image Pre-
training), ha trasformato la Computer Vision, aprendo nuove frontiere nella generazione
e nell’analisi di contenuti visivi. Tuttavia, l’efficacia di tali modelli nel comprendere
concetti astratti propri del dominio artistico quali lo stile pittorico e la qualità estetica
rimane una questione aperta.
Questa tesi si inserisce in un progetto di ricerca collaborativo volto a valutare le
rappresentazioni latenti di CLIP nel dominio dell’arte, analizzando sia opere reali che
sintetiche su dataset eterogenei (NGA, WikiArt, AI-ArtBench e AI-Pastiche). Il lavo-
ro complessivo indaga tre dimensioni fondamentali: l’allineamento testo-immagine, il
riconoscimento dello stile e la valutazione della qualità generativa.
Nello specifico, il contributo originale di questo elaborato si focalizza sull’analisi delle
immagini generate artificialmente. In una prima fase, è stato validato l’allineamento
semantico tra prompt e immagini sintetiche. Successivamente, si è esaminata la capacità
di CLIP di riconoscere stili artistici complessi, dimostrando che tecniche di supervisio-
ne leggera come il Linear Probing ottengono prestazioni superiori rispetto ad approcci
Zero-Shot o Few-Shot. Infine, è stato condotto uno studio inedito sull’aderenza estetica,
confrontando la similarità di CLIP con il giudizio umano. I risultati evidenziano una
discrepanza significativa: il modello tende a ignorare artefatti visivi e difetti strutturali
determinanti per la percezione umana. L’integrazione sperimentale di un defect sco-
re ha permesso di migliorare l’allineamento, suggerendo che le attuali rappresentazioni
multimodali necessitino di segnali ausiliari per fungere da giudici di qualità affidabili.
I risultati concludono che, sebbene CLIP eccella nel catturare la semantica denotativa,
la comprensione delle sfumature stilistiche e qualitative nell’arte generata richiede ancora
interventi mirati e supervisione specifica.
Abstract
L’avvento dei modelli Vision-Language, come CLIP (Contrastive Language-Image Pre-
training), ha trasformato la Computer Vision, aprendo nuove frontiere nella generazione
e nell’analisi di contenuti visivi. Tuttavia, l’efficacia di tali modelli nel comprendere
concetti astratti propri del dominio artistico quali lo stile pittorico e la qualità estetica
rimane una questione aperta.
Questa tesi si inserisce in un progetto di ricerca collaborativo volto a valutare le
rappresentazioni latenti di CLIP nel dominio dell’arte, analizzando sia opere reali che
sintetiche su dataset eterogenei (NGA, WikiArt, AI-ArtBench e AI-Pastiche). Il lavo-
ro complessivo indaga tre dimensioni fondamentali: l’allineamento testo-immagine, il
riconoscimento dello stile e la valutazione della qualità generativa.
Nello specifico, il contributo originale di questo elaborato si focalizza sull’analisi delle
immagini generate artificialmente. In una prima fase, è stato validato l’allineamento
semantico tra prompt e immagini sintetiche. Successivamente, si è esaminata la capacità
di CLIP di riconoscere stili artistici complessi, dimostrando che tecniche di supervisio-
ne leggera come il Linear Probing ottengono prestazioni superiori rispetto ad approcci
Zero-Shot o Few-Shot. Infine, è stato condotto uno studio inedito sull’aderenza estetica,
confrontando la similarità di CLIP con il giudizio umano. I risultati evidenziano una
discrepanza significativa: il modello tende a ignorare artefatti visivi e difetti strutturali
determinanti per la percezione umana. L’integrazione sperimentale di un defect sco-
re ha permesso di migliorare l’allineamento, suggerendo che le attuali rappresentazioni
multimodali necessitino di segnali ausiliari per fungere da giudici di qualità affidabili.
I risultati concludono che, sebbene CLIP eccella nel catturare la semantica denotativa,
la comprensione delle sfumature stilistiche e qualitative nell’arte generata richiede ancora
interventi mirati e supervisione specifica.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Wu, Nico
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
CLIP,Art Classification,Computational Aesthetics,Image-Text Alignment
Data di discussione della Tesi
17 Dicembre 2025
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Wu, Nico
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
CLIP,Art Classification,Computational Aesthetics,Image-Text Alignment
Data di discussione della Tesi
17 Dicembre 2025
URI
Statistica sui download
Gestione del documento: