Il full-text non è disponibile per scelta dell'autore.
(
Contatta l'autore)
Abstract
I Domain Generation Algorithms (DGA) sono algoritmi che generano un gran numero di domini in modo pseudo casuale. I domini DGA vengono utilizzati principalmente per attività malevole come phishing e frodi online. Essi vengono usati per nascondere i server Command and Control(C&C), ovvero dei server usati dagli hacker per comunicare con i computer infetti da malware, e sono stati sviluppati
per superare le limitazioni dei metodi precedenti come i domini hard-coded, i quali sono prevedibili e facilmente bloccabili.
I domini DGA, invece, sono quasi impossibili da prevedere e da bloccare con i metodi tradizionali, come le blacklist.
Lo scopo di questo progetto di tesi è quello di analizzare e sviluppare soluzioni per la rilevazione dei domini DGA attraverso il Machine Learning, cercando di creare un modello in grado di rilevarli e distinguerli dai domini legit. Sono stati analizzati
e sperimentati quattro algoritmi di Machine Learning per la rilevazione dei domini DGA, due algoritmi classici basati su tecniche di feature extraction, ovvero le caratteristiche estratte dai dati, e due basati su tecniche di Deep Learning, che quindi impiegano delle reti neurali capaci di imparare direttamente dai dati. I due
algoritmi di Machine Learning basati su feature extraction sono il Random Forest e l’XGBoost, mentre i due algortimi di Deep Learning sono la Long Short-Term Memory (LSTM) e la Bidirectional LSTM.
I modelli sono stati addestrati e testati su un dataset di domini DGA e legit diviso in training, validation e test set. I
risultati sono basati su diverse metriche e sono stati confrontati tra i vari modelli. I modelli con risultati migliori sono stati quelli basati su Deep Learning con un’accuretezza del 99% e una differenza di accuratezza del 7% circa rispetto agli altri modelli, mentre, quelli più
performanti in termini di tempo, sono stati quelli basati
su feature extraction impiegando più di 30 volte in meno per l’addestramento rispetto ai modelli di Deep Learning.
Abstract
I Domain Generation Algorithms (DGA) sono algoritmi che generano un gran numero di domini in modo pseudo casuale. I domini DGA vengono utilizzati principalmente per attività malevole come phishing e frodi online. Essi vengono usati per nascondere i server Command and Control(C&C), ovvero dei server usati dagli hacker per comunicare con i computer infetti da malware, e sono stati sviluppati
per superare le limitazioni dei metodi precedenti come i domini hard-coded, i quali sono prevedibili e facilmente bloccabili.
I domini DGA, invece, sono quasi impossibili da prevedere e da bloccare con i metodi tradizionali, come le blacklist.
Lo scopo di questo progetto di tesi è quello di analizzare e sviluppare soluzioni per la rilevazione dei domini DGA attraverso il Machine Learning, cercando di creare un modello in grado di rilevarli e distinguerli dai domini legit. Sono stati analizzati
e sperimentati quattro algoritmi di Machine Learning per la rilevazione dei domini DGA, due algoritmi classici basati su tecniche di feature extraction, ovvero le caratteristiche estratte dai dati, e due basati su tecniche di Deep Learning, che quindi impiegano delle reti neurali capaci di imparare direttamente dai dati. I due
algoritmi di Machine Learning basati su feature extraction sono il Random Forest e l’XGBoost, mentre i due algortimi di Deep Learning sono la Long Short-Term Memory (LSTM) e la Bidirectional LSTM.
I modelli sono stati addestrati e testati su un dataset di domini DGA e legit diviso in training, validation e test set. I
risultati sono basati su diverse metriche e sono stati confrontati tra i vari modelli. I modelli con risultati migliori sono stati quelli basati su Deep Learning con un’accuretezza del 99% e una differenza di accuratezza del 7% circa rispetto agli altri modelli, mentre, quelli più
performanti in termini di tempo, sono stati quelli basati
su feature extraction impiegando più di 30 volte in meno per l’addestramento rispetto ai modelli di Deep Learning.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Collorà, Simone
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Domain Generation Algorithm,DGA,Machine Learning,Deep Learning,Internet Security
Data di discussione della Tesi
17 Luglio 2025
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Collorà, Simone
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Domain Generation Algorithm,DGA,Machine Learning,Deep Learning,Internet Security
Data di discussione della Tesi
17 Luglio 2025
URI
Gestione del documento: