User Internet Protection mediante Classificazione di Pagine Web con Text Mining

Bazzocchi, Luca (2020) User Internet Protection mediante Classificazione di Pagine Web con Text Mining. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena

Salva citazione

Documenti full-text disponibili:

Documento PDF (Thesis)
Disponibile con Licenza: Creative Commons: Attribuzione - Condividi allo stesso modo 4.0 (CC BY-SA 4.0)
Download (3MB)

Abstract

La classificazione di pagine web, ovvero il raggruppamento delle pagine in categorie sulla base del contenuto, come testo in linguaggio naturale, link, immagini e video sta diventando un problema sempre più importante da affrontare ed è proprio attraverso la conoscenza, ottenuta dai sorgenti html, che si cerca di raggiungere tale classificazione. Le pagine web e quindi i loro sorgenti html, non sono presenti né in schemi né in modelli composti da regole tali da definire la forma e tipologia dei dati contenuti, questo porta ad una loro difficile comprensione. Il Text Mining è il processo di trasformazione di testi non strutturati. Nel nostro caso, cioè la conversione di testo in linguaggio naturale presente sul web in dati strutturati, organizzati in schemi e tabelle, è utilizzato con lo scopo di estrarre conoscenza per la classificazione e il raggruppamento in base ai contenuti del testo di input. Attraverso il Text Mining riusciamo a utilizzare tecniche e metodi per la classificazione di pagine web con lo scopo di offrire, all'utente, una navigazione sicura sul web. La User Internet Protection è così attuabile in quanto, avendo ottenuto una classificazione delle pagine web, l’utente potrà decidere le tipologie di siti da oscurare in modo tale da evitare i siti indesiderati con la presenza di malware e virus o siti per adulti e così via. Per ottenere una Web Page Classification, verranno impiegate tecniche e algoritmi per l’estrazione di pattern e conoscenza dal linguaggio scritto e l’addestramento di modelli tramite machine learning, deep learning e natural language processing.

Abstract

Tipologia del documento

Tesi di laurea (Laurea)

Autore della tesi

Bazzocchi, Luca

Relatore della tesi

Moro, Gianluca

Scuola

Scienze

Corso di studio

Ingegneria e scienze informatiche [L-DM270] - Cesena

Ordinamento Cds