Polidori, Daniele
(2025)
Strumento di mechanistic interpretability per modelli linguistici basati su Transformer.
[Laurea magistrale], Università di Bologna, Corso di Studio in
Informatica [LM-DM270]
Documenti full-text disponibili:
Abstract
I modelli di machine learning basati sull'architettura Transformer rivestono un ruolo di ampio rilievo nel panorama attuale, in particolare per quanto riguarda l’elaborazione del linguaggio naturale (NLP). Si tratta di modelli estremamente potenti, tuttavia carenti nell’interpretabilità. Risulta socialmente necessario l’utilizzo di sistemi sicuri, affidabili e trasparenti. Tale obiettivo richiede una comprensione esaustiva del relativo funzionamento interno, rendendo un imperativo cruciale fare luce sui processi decisionali da cui sono guidati. Questo lavoro si inserisce nell'ambito della ricerca in mechanistic interpretability, di cui si illustrano tecniche e un possibile flusso di lavoro. Si presenta un framework matematico, per descrivere a livello teorico la struttura e il funzionamento dei modelli linguistici basati su Transformer, e la sua implementazione nella libreria TransformerLens, che consente l’analisi di tali modelli secondo un approccio di mechanistic interpretability.
Abstract
I modelli di machine learning basati sull'architettura Transformer rivestono un ruolo di ampio rilievo nel panorama attuale, in particolare per quanto riguarda l’elaborazione del linguaggio naturale (NLP). Si tratta di modelli estremamente potenti, tuttavia carenti nell’interpretabilità. Risulta socialmente necessario l’utilizzo di sistemi sicuri, affidabili e trasparenti. Tale obiettivo richiede una comprensione esaustiva del relativo funzionamento interno, rendendo un imperativo cruciale fare luce sui processi decisionali da cui sono guidati. Questo lavoro si inserisce nell'ambito della ricerca in mechanistic interpretability, di cui si illustrano tecniche e un possibile flusso di lavoro. Si presenta un framework matematico, per descrivere a livello teorico la struttura e il funzionamento dei modelli linguistici basati su Transformer, e la sua implementazione nella libreria TransformerLens, che consente l’analisi di tali modelli secondo un approccio di mechanistic interpretability.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Polidori, Daniele
Relatore della tesi
Scuola
Corso di studio
Indirizzo
CURRICULUM A: TECNICHE DEL SOFTWARE
Ordinamento Cds
DM270
Parole chiave
ML,Modelli linguistici,Transformer,GPT,NLP,Mechanistic interpretability,Mathematical framework,Circuit,In-context learning,TransformerLens.
Data di discussione della Tesi
18 Dicembre 2025
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Polidori, Daniele
Relatore della tesi
Scuola
Corso di studio
Indirizzo
CURRICULUM A: TECNICHE DEL SOFTWARE
Ordinamento Cds
DM270
Parole chiave
ML,Modelli linguistici,Transformer,GPT,NLP,Mechanistic interpretability,Mathematical framework,Circuit,In-context learning,TransformerLens.
Data di discussione della Tesi
18 Dicembre 2025
URI
Statistica sui download
Gestione del documento: