Dessì, Leonardo
(2025)
An investigation of the perceptual capabilities of CLIP in the art domain.
[Laurea magistrale], Università di Bologna, Corso di Studio in
Informatica [LM-DM270]
Documenti full-text disponibili:
Abstract
Questa tesi analizza le capacità percettive native del modello CLIP di OpenAI nel dominio artistico, dove il suo allineamento con l'interpretazione umana è poco compreso. Trattando CLIP come un sistema fisso e pre-addestrato, senza fine-tuning, questo lavoro isola i suoi bias rappresentazionali intrinseci. L'obiettivo centrale è valutare come le rappresentazioni di CLIP codifichino lo stile artistico e gli artefatti sintetici, oltre al contenuto semantico. Utilizzando dataset di opere d'arte sia create dall'uomo sia generate dall'IA, gli esperimenti valutano l'allineamento immagine-testo, il riconoscimento dello stile e la correlazione del modello con i giudizi umani.
I risultati rivelano che il framework percettivo di CLIP è prevalentemente dominato dal contenuto semantico. Sebbene sia robusto nella corrispondenza semantica grossolana, il modello incontra difficoltà nella classificazione stilistica dettagliata (fine-grained) e mostra una scarsa generalizzazione. Un punto cruciale è che viene identificato un significativo "divario percettivo" tra le valutazioni di CLIP e quelle umane riguardo alle opere d'arte generate dall'IA, divario derivante dall'insensibilità del modello agli artefatti visivi e agli errori compositivi. Questi risultati sottolineano i limiti dell'utilizzo della somiglianza semantica come proxy per la fedeltà artistica e mettono in evidenza la necessità di modelli che siano maggiormente allineati a livello percettivo e culturale per l'applicazione in domini soggettivi.
Abstract
Questa tesi analizza le capacità percettive native del modello CLIP di OpenAI nel dominio artistico, dove il suo allineamento con l'interpretazione umana è poco compreso. Trattando CLIP come un sistema fisso e pre-addestrato, senza fine-tuning, questo lavoro isola i suoi bias rappresentazionali intrinseci. L'obiettivo centrale è valutare come le rappresentazioni di CLIP codifichino lo stile artistico e gli artefatti sintetici, oltre al contenuto semantico. Utilizzando dataset di opere d'arte sia create dall'uomo sia generate dall'IA, gli esperimenti valutano l'allineamento immagine-testo, il riconoscimento dello stile e la correlazione del modello con i giudizi umani.
I risultati rivelano che il framework percettivo di CLIP è prevalentemente dominato dal contenuto semantico. Sebbene sia robusto nella corrispondenza semantica grossolana, il modello incontra difficoltà nella classificazione stilistica dettagliata (fine-grained) e mostra una scarsa generalizzazione. Un punto cruciale è che viene identificato un significativo "divario percettivo" tra le valutazioni di CLIP e quelle umane riguardo alle opere d'arte generate dall'IA, divario derivante dall'insensibilità del modello agli artefatti visivi e agli errori compositivi. Questi risultati sottolineano i limiti dell'utilizzo della somiglianza semantica come proxy per la fedeltà artistica e mettono in evidenza la necessità di modelli che siano maggiormente allineati a livello percettivo e culturale per l'applicazione in domini soggettivi.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Dessì, Leonardo
Relatore della tesi
Scuola
Corso di studio
Indirizzo
CURRICULUM A: TECNICHE DEL SOFTWARE
Ordinamento Cds
DM270
Parole chiave
Computer Vision,Vision-Language Models,Art Analysis,AI-Generated Art,Generative AI,Deep Learning,Multimodal Machine Learning
Data di discussione della Tesi
30 Ottobre 2025
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Dessì, Leonardo
Relatore della tesi
Scuola
Corso di studio
Indirizzo
CURRICULUM A: TECNICHE DEL SOFTWARE
Ordinamento Cds
DM270
Parole chiave
Computer Vision,Vision-Language Models,Art Analysis,AI-Generated Art,Generative AI,Deep Learning,Multimodal Machine Learning
Data di discussione della Tesi
30 Ottobre 2025
URI
Statistica sui download
Gestione del documento: