Thinking with Images in Large Multimodal Reasoning Models

Samadzadeh, Yasaman (2026) Thinking with Images in Large Multimodal Reasoning Models. [Laurea magistrale], Università di Bologna, Corso di Studio in Artificial intelligence [LM-DM270], Documento ad accesso riservato.

Salva citazione

Documenti full-text disponibili:

Documento PDF (Thesis)
Full-text non accessibile fino al 26 Marzo 2027.
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (973kB) | Contatta l'autore

Abstract

3D spatial reasoning remains challenging: it requires both accurate answers and structured reasoning in the form of executable code that invokes tools. Data scarcity is a bottleneck: benchmarks like Omni3D-Bench offer only hundreds of questions. This thesis addresses that gap with a tool-augmented approach: the model receives dense scene captions, generates executable code that calls tools, and is trained with GRPO using verifiable accuracy rewards. We contribute (1) a larger dataset from structured Omni3D annotations, (2) an oracle setting that separates tool error from reasoning error, and (3) a GRPO methodology with composite rewards (format, execution, accuracy, code quality, consistency) and ablations. On Omni3D-Bench (501 questions), GRPO improves accuracy from 19.5% (SFT) to 29.1% (full reward), and format and execution compliance rise from ~30% to near-perfect levels. The oracle reaches 35.6%, exposing a gap of 6.5 percentage points under standard tools and indicating imperfect 3D grounding as a bottleneck. Reward ablations confirm that consistency and code quality add value. The work demonstrates substantial improvements in both accuracy and output quality, while identifying main bottlenecks and a path for future improvements.

Abstract

Tipologia del documento

Tesi di laurea (Laurea magistrale)

Autore della tesi

Samadzadeh, Yasaman

Relatore della tesi

Torroni, Paolo

Correlatore della tesi

Tresp, Volker ; Liao, Ruotong

Scuola

Ingegneria e Architettura

Corso di studio

Artificial intelligence [LM-DM270]

Ordinamento Cds

DM270

Parole chiave

3D spatial reasoning, ool-augmented reasoning, reinforcement learning, Group Relative Policy Optimization, oracle evaluation, large language models, Dataset generation

Data di discussione della Tesi

26 Marzo 2026

URI

https://amslaurea.unibo.it/id/eprint/38747

Altri metadati

Gestione del documento:

Strumenti di navigazione

Collezioni AlmaDL

Thinking with Images in Large Multimodal Reasoning Models

Abstract

Altri metadati