An investigation of the perceptual capabilities of CLIP in the art domain

Dessì, Leonardo (2025) An investigation of the perceptual capabilities of CLIP in the art domain. [Laurea magistrale], Università di Bologna, Corso di Studio in Informatica [LM-DM270]
Documenti full-text disponibili:
[thumbnail of Thesis] Documento PDF (Thesis)
Disponibile con Licenza: Creative Commons: Attribuzione - Non commerciale - Condividi allo stesso modo 4.0 (CC BY-NC-SA 4.0)

Download (28MB)

Abstract

Questa tesi analizza le capacità percettive native del modello CLIP di OpenAI nel dominio artistico, dove il suo allineamento con l'interpretazione umana è poco compreso. Trattando CLIP come un sistema fisso e pre-addestrato, senza fine-tuning, questo lavoro isola i suoi bias rappresentazionali intrinseci. L'obiettivo centrale è valutare come le rappresentazioni di CLIP codifichino lo stile artistico e gli artefatti sintetici, oltre al contenuto semantico. Utilizzando dataset di opere d'arte sia create dall'uomo sia generate dall'IA, gli esperimenti valutano l'allineamento immagine-testo, il riconoscimento dello stile e la correlazione del modello con i giudizi umani. I risultati rivelano che il framework percettivo di CLIP è prevalentemente dominato dal contenuto semantico. Sebbene sia robusto nella corrispondenza semantica grossolana, il modello incontra difficoltà nella classificazione stilistica dettagliata (fine-grained) e mostra una scarsa generalizzazione. Un punto cruciale è che viene identificato un significativo "divario percettivo" tra le valutazioni di CLIP e quelle umane riguardo alle opere d'arte generate dall'IA, divario derivante dall'insensibilità del modello agli artefatti visivi e agli errori compositivi. Questi risultati sottolineano i limiti dell'utilizzo della somiglianza semantica come proxy per la fedeltà artistica e mettono in evidenza la necessità di modelli che siano maggiormente allineati a livello percettivo e culturale per l'applicazione in domini soggettivi.

Abstract
Tipologia del documento
Tesi di laurea (Laurea magistrale)
Autore della tesi
Dessì, Leonardo
Relatore della tesi
Scuola
Corso di studio
Indirizzo
CURRICULUM A: TECNICHE DEL SOFTWARE
Ordinamento Cds
DM270
Parole chiave
Computer Vision,Vision-Language Models,Art Analysis,AI-Generated Art,Generative AI,Deep Learning,Multimodal Machine Learning
Data di discussione della Tesi
30 Ottobre 2025
URI

Altri metadati

Statistica sui download

Gestione del documento: Visualizza il documento

^