Benchmarking and Refining Prompting Methods for Visual Logical Reasoning in Multimodal Models

Bianchi, Andrea (2025) Benchmarking and Refining Prompting Methods for Visual Logical Reasoning in Multimodal Models. [Laurea magistrale], Università di Bologna, Corso di Studio in Informatica [LM-DM270], Documento ad accesso riservato.
Documenti full-text disponibili:
[thumbnail of Thesis] Documento PDF (Thesis)
Full-text accessibile solo agli utenti istituzionali dell'Ateneo
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato

Download (4MB) | Contatta l'autore
[thumbnail of Supplementary file] Documento PDF (Supplementary file)
Full-text accessibile solo agli utenti istituzionali dell'Ateneo
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato

Download (193kB) | Contatta l'autore

Abstract

This thesis presents the methodological framework and results of the study focused on the analysis and enhancement of the logical-visual reasoning competencies of MLLMs. The LogicVista benchmark was used to test models on their ability to solve inductive, deductive, and numerical problems where visual input is crucial. The core methodological approach relies on the integration of more advanced prompt engineering techniques, namely Expert Prompting, Chain o Thought and Tree of Thought, implemented with the APET framework. In order to further refine model outputs, specialized RMs, including LLaVA-Critic-7b and DeepSeek-GRM-16B, have been applied within two-stage correction pipelines. The results showed that the optimization of the prompts remains pivotal for larger architectures, while the LLaVA-13B model developed the highest accuracy (75.59%) when combined with the APET approach.

Abstract
Tipologia del documento
Tesi di laurea (Laurea magistrale)
Autore della tesi
Bianchi, Andrea
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Indirizzo
CURRICULUM A: TECNICHE DEL SOFTWARE
Ordinamento Cds
DM270
Parole chiave
Retrieval-Augmented Generation,Large Language Model,Multimodal AI,Prompt Engineering,Visual Question Answering,Multimodal Reasoning Capability
Data di discussione della Tesi
18 Dicembre 2025
URI

Altri metadati

Statistica sui download

Gestione del documento: Visualizza il documento

^