Analisi Multimodale dell'Arte Generata da AI: Riconoscimento dello Stile e Valutazione dell'Aderenza Semantica con CLIP

Wu, Nico (2025) Analisi Multimodale dell'Arte Generata da AI: Riconoscimento dello Stile e Valutazione dell'Aderenza Semantica con CLIP. [Laurea], Università di Bologna, Corso di Studio in Informatica [L-DM270]
Documenti full-text disponibili:
[thumbnail of Thesis] Documento PDF (Thesis)
Disponibile con Licenza: Creative Commons: Attribuzione - Non commerciale - Condividi allo stesso modo 4.0 (CC BY-NC-SA 4.0)

Download (8MB)

Abstract

L’avvento dei modelli Vision-Language, come CLIP (Contrastive Language-Image Pre- training), ha trasformato la Computer Vision, aprendo nuove frontiere nella generazione e nell’analisi di contenuti visivi. Tuttavia, l’efficacia di tali modelli nel comprendere concetti astratti propri del dominio artistico quali lo stile pittorico e la qualità estetica rimane una questione aperta. Questa tesi si inserisce in un progetto di ricerca collaborativo volto a valutare le rappresentazioni latenti di CLIP nel dominio dell’arte, analizzando sia opere reali che sintetiche su dataset eterogenei (NGA, WikiArt, AI-ArtBench e AI-Pastiche). Il lavo- ro complessivo indaga tre dimensioni fondamentali: l’allineamento testo-immagine, il riconoscimento dello stile e la valutazione della qualità generativa. Nello specifico, il contributo originale di questo elaborato si focalizza sull’analisi delle immagini generate artificialmente. In una prima fase, è stato validato l’allineamento semantico tra prompt e immagini sintetiche. Successivamente, si è esaminata la capacità di CLIP di riconoscere stili artistici complessi, dimostrando che tecniche di supervisio- ne leggera come il Linear Probing ottengono prestazioni superiori rispetto ad approcci Zero-Shot o Few-Shot. Infine, è stato condotto uno studio inedito sull’aderenza estetica, confrontando la similarità di CLIP con il giudizio umano. I risultati evidenziano una discrepanza significativa: il modello tende a ignorare artefatti visivi e difetti strutturali determinanti per la percezione umana. L’integrazione sperimentale di un defect sco- re ha permesso di migliorare l’allineamento, suggerendo che le attuali rappresentazioni multimodali necessitino di segnali ausiliari per fungere da giudici di qualità affidabili. I risultati concludono che, sebbene CLIP eccella nel catturare la semantica denotativa, la comprensione delle sfumature stilistiche e qualitative nell’arte generata richiede ancora interventi mirati e supervisione specifica.

Abstract
Tipologia del documento
Tesi di laurea (Laurea)
Autore della tesi
Wu, Nico
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
CLIP,Art Classification,Computational Aesthetics,Image-Text Alignment
Data di discussione della Tesi
17 Dicembre 2025
URI

Altri metadati

Statistica sui download

Gestione del documento: Visualizza il documento

^