LLM per estrazione e classificazione di esercizi scolastici in PDF: analisi sperimentale ed integrazione in un’applicazione web

Manieri, Alessio (2025) LLM per estrazione e classificazione di esercizi scolastici in PDF: analisi sperimentale ed integrazione in un’applicazione web. [Laurea], Università di Bologna, Corso di Studio in Informatica per il management [L-DM270]
Documenti full-text disponibili:
[thumbnail of Thesis] Documento PDF (Thesis)
Disponibile con Licenza: Creative Commons: Attribuzione - Non commerciale - Non opere derivate 4.0 (CC BY-NC-ND 4.0)

Download (691kB)

Abstract

Il progetto nasce dall’esigenza di rendere accessibili materiali didattici a bambini della scuola primaria con difficoltà di apprendimento o disturbi specifici, con l’obiettivo di favorire una didattica più inclusiva e personalizzata. La tesi ha come obiettivo la creazione di un sistema in grado di convertire automaticamente file PDF nativi contenenti esercizi scolastici in pagine HTML coerenti e semanticamente corrette tramite LLM. Il lavoro proposto si concentra sulla realizzazione di due pipeline. La prima sfrutta direttamente modelli linguistici multimodali, inviando il documento in forma visiva per ricostruirne struttura, gerarchia e layout, sfruttando librerie di Python per la sola estrazione delle immagini. La seconda integra una fase preliminare di analisi del PDF, strutturazione in JSON e invio al modello. Il test di entrambi flussi mira ad un sistema automatizzato in grado di ricostruire la logica del documento, convertirlo in linguaggio HTML mantenendo il più possibile la fedeltà visiva, la leggibilità del contenuto e riconoscendo e classificando le tipologie di esercizio. L’approccio sperimentale è basato su tecniche di prompt engineering e rappresenta un’alternativa moderna ai metodi maggiormente utilizzati ad oggi di conversione, tipicamente fondati su coordinate e posizionamenti assoluti. Il progetto, sebbene sia sviluppato in un contesto specifico, è pensato in modo flessibile e indirizzato verso l’estensione futura ad altri formati e finalità nel campo della trasformazione semantica di documenti.

Abstract
Tipologia del documento
Tesi di laurea (Laurea)
Autore della tesi
Manieri, Alessio
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Conversione documentale,PDF,HTML semantico,Large Language Models,Prompt engineering,Document layout analysis,Didattica inclusiva,Classificazione di esercizi
Data di discussione della Tesi
16 Dicembre 2025
URI

Altri metadati

Statistica sui download

Gestione del documento: Visualizza il documento

^