Guidare i Large Language Models nell'Estrazione di Informazioni da Database mediante Query SQL Automatizzate e Model Context Protocol

Merighi, Daniele (2025) Guidare i Large Language Models nell'Estrazione di Informazioni da Database mediante Query SQL Automatizzate e Model Context Protocol. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena, Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore. (Contatta l'autore)

Abstract

L'interazione tra modelli linguistici di grandi dimensioni e database relazionali mediante linguaggio naturale costituisce una sfida critica per sistemi intelligenti. Le prestazioni degradano drammaticamente quando le tabelle superano determinate soglie: l'inclusione diretta satura la finestra di contesto, mentre approcci basati su recupero selettivo introducono dipendenza dalla qualità dell'estrazione. Questa tesi affronta una questione fondamentale: quando le tabelle diventano troppo grandi per essere incluse nel prompt, quali strategie alternative sono più efficaci? La ricerca caratterizza empiricamente le soglie dimensionali che determinano il passaggio tra approcci. Viene implementata un'architettura basata su Model Context Protocol che permette al modello di interrogare tabelle tramite strumenti specializzati: ispezione della struttura, esecuzione controllata di query, campionamento esplorativo e sintesi statistica. Il sistema garantisce sicurezza mediante isolamento delle operazioni e compatibilità attraverso rilevamento automatico delle capacità native del modello. I risultati sperimentali su dataset stratificato di 450 esempi, distribuiti tra sei tipologie di compito e tre fasce dimensionali, rivelano pattern differenziati. Gli approcci basati su strumenti esterni ottengono miglioramenti significativi su tabelle grandi oltre duemila celle e su compiti orientati a interrogazioni strutturate come Table Question Answering. Questo elaborato contribuisce alla dimostrazione che l'efficacia delle strategie dipende congiuntamente dalla scala dimensionale e dalla natura del compito. Il contributo metodologico consiste nell'identificazione empirica di soglie oltre le quali l'inclusione diretta degrada sistematicamente, fornendo linee guida per rilascio in produzione. La ricerca dimostra che la scelta ottimale richiede instradamento adattivo basato su caratteristiche osservabili della query e della tabella.

Abstract
Tipologia del documento
Tesi di laurea (Laurea)
Autore della tesi
Merighi, Daniele
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Large Language Model,Tool-Augmented Generation,Model Context Protocol,Long Table Processing,Text-to-SQL
Data di discussione della Tesi
27 Novembre 2025
URI

Altri metadati

Gestione del documento: Visualizza il documento

^