Thinking with Images in Large Multimodal Reasoning Models

Samadzadeh, Yasaman (2026) Thinking with Images in Large Multimodal Reasoning Models. [Laurea magistrale], Università di Bologna, Corso di Studio in Artificial intelligence [LM-DM270], Documento ad accesso riservato.
Documenti full-text disponibili:
[thumbnail of Thesis] Documento PDF (Thesis)
Full-text non accessibile fino al 26 Marzo 2027.
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato

Download (973kB) | Contatta l'autore

Abstract

3D spatial reasoning remains challenging: it requires both accurate answers and structured reasoning in the form of executable code that invokes tools. Data scarcity is a bottleneck: benchmarks like Omni3D-Bench offer only hundreds of questions. This thesis addresses that gap with a tool-augmented approach: the model receives dense scene captions, generates executable code that calls tools, and is trained with GRPO using verifiable accuracy rewards. We contribute (1) a larger dataset from structured Omni3D annotations, (2) an oracle setting that separates tool error from reasoning error, and (3) a GRPO methodology with composite rewards (format, execution, accuracy, code quality, consistency) and ablations. On Omni3D-Bench (501 questions), GRPO improves accuracy from 19.5% (SFT) to 29.1% (full reward), and format and execution compliance rise from ~30% to near-perfect levels. The oracle reaches 35.6%, exposing a gap of 6.5 percentage points under standard tools and indicating imperfect 3D grounding as a bottleneck. Reward ablations confirm that consistency and code quality add value. The work demonstrates substantial improvements in both accuracy and output quality, while identifying main bottlenecks and a path for future improvements.

Abstract
Tipologia del documento
Tesi di laurea (Laurea magistrale)
Autore della tesi
Samadzadeh, Yasaman
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
3D spatial reasoning, ool-augmented reasoning, reinforcement learning, Group Relative Policy Optimization, oracle evaluation, large language models, Dataset generation
Data di discussione della Tesi
26 Marzo 2026
URI

Altri metadati

Gestione del documento: Visualizza il documento

^