De Bernardis, Orlando
(2025)
Jailbreak-GPT: Analisi del fenomeno di jailbreak dei Large Language Models.
[Laurea magistrale], Università di Bologna, Corso di Studio in
Ingegneria informatica [LM-DM270], Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore.
(
Contatta l'autore)
Abstract
Con l’introduzione e il continuo sviluppo di sistemi di intelligenza artificiale generativa, e in particolare i sistemi conversazionali basati sui Large Language Models (LLM), diversi settori hanno subito una profonda rivoluzione per via delle loro avanzate capacità di comprensione e generazione del linguaggio naturale. La loro crescente complessità, sia in termini di parametri interni che
di architettura interna, ha reso necessaria un’attenzione sempre maggiore al settore del Prompt Engineering. Con il termine Prompt Engineering si fa riferimento ad una nuova disciplina per lo studio dei prompt di input che guidano le risposte di questi modelli poiché, come si è dimostrato, questi consentono di sfruttare al massimo il potenziale dei LLM migliorando la qualità dell’output
in contesti via via più complessi e specifici. Con il rilascio al pubblico e la sempre crescente popolarità di questi strumenti
sono nati nuovi interrogativi e problemi in particolare sulla sicurezza. A tal proposito questo lavoro si concentra sul fenomeno del Jailbreak di questi modelli, ovvero particolari prompt che permettono di eludere le policy imposte dai produttori e le misure di sicurezza integrate. E’ stata sviluppata una web-application in Python tramite i framework Streamlit e Ollama, al fine di
progettare e testare prompt appositamente individuati per sfidare i limiti di tali modelli. L’obiettivo è, dunque, costruire opportunamente un dataset e analizzare quantitativamente le risposte di questi modelli linguistici ai tentativi di jailbreak,
eseguire una valutazione dei dati raccolti tramite gli stessi modelli al fine di valutarne innanzitutto la coscienza relativa sul fenomeno e, tramite metriche appositamente introdotte, le capacità e la resilienza. I risultati ottenuti mirano a fornire un contributo alla ricerca nell’ambito della sicurezza dei modelli linguistici, aprendo
la strada a nuovi studi e metodologie di protezione.
Abstract
Con l’introduzione e il continuo sviluppo di sistemi di intelligenza artificiale generativa, e in particolare i sistemi conversazionali basati sui Large Language Models (LLM), diversi settori hanno subito una profonda rivoluzione per via delle loro avanzate capacità di comprensione e generazione del linguaggio naturale. La loro crescente complessità, sia in termini di parametri interni che
di architettura interna, ha reso necessaria un’attenzione sempre maggiore al settore del Prompt Engineering. Con il termine Prompt Engineering si fa riferimento ad una nuova disciplina per lo studio dei prompt di input che guidano le risposte di questi modelli poiché, come si è dimostrato, questi consentono di sfruttare al massimo il potenziale dei LLM migliorando la qualità dell’output
in contesti via via più complessi e specifici. Con il rilascio al pubblico e la sempre crescente popolarità di questi strumenti
sono nati nuovi interrogativi e problemi in particolare sulla sicurezza. A tal proposito questo lavoro si concentra sul fenomeno del Jailbreak di questi modelli, ovvero particolari prompt che permettono di eludere le policy imposte dai produttori e le misure di sicurezza integrate. E’ stata sviluppata una web-application in Python tramite i framework Streamlit e Ollama, al fine di
progettare e testare prompt appositamente individuati per sfidare i limiti di tali modelli. L’obiettivo è, dunque, costruire opportunamente un dataset e analizzare quantitativamente le risposte di questi modelli linguistici ai tentativi di jailbreak,
eseguire una valutazione dei dati raccolti tramite gli stessi modelli al fine di valutarne innanzitutto la coscienza relativa sul fenomeno e, tramite metriche appositamente introdotte, le capacità e la resilienza. I risultati ottenuti mirano a fornire un contributo alla ricerca nell’ambito della sicurezza dei modelli linguistici, aprendo
la strada a nuovi studi e metodologie di protezione.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
De Bernardis, Orlando
Relatore della tesi
Scuola
Corso di studio
Indirizzo
CURRICULUM INGEGNERIA INFORMATICA
Ordinamento Cds
DM270
Parole chiave
Natural Language Processing, transformer, Large Language Models, Prompt Engineering, Jailbreaking
Data di discussione della Tesi
25 Marzo 2025
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
De Bernardis, Orlando
Relatore della tesi
Scuola
Corso di studio
Indirizzo
CURRICULUM INGEGNERIA INFORMATICA
Ordinamento Cds
DM270
Parole chiave
Natural Language Processing, transformer, Large Language Models, Prompt Engineering, Jailbreaking
Data di discussione della Tesi
25 Marzo 2025
URI
Gestione del documento: