User Internet Protection mediante Classificazione di Pagine Web con Text Mining

Bazzocchi, Luca (2020) User Internet Protection mediante Classificazione di Pagine Web con Text Mining. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena
Documenti full-text disponibili:
[img] Documento PDF (Thesis)
Disponibile con Licenza: Creative Commons: Attribuzione - Condividi allo stesso modo 4.0 (CC BY-SA 4.0)

Download (3MB)

Abstract

La classificazione di pagine web, ovvero il raggruppamento delle pagine in categorie sulla base del contenuto, come testo in linguaggio naturale, link, immagini e video sta diventando un problema sempre più importante da affrontare ed è proprio attraverso la conoscenza, ottenuta dai sorgenti html, che si cerca di raggiungere tale classificazione. Le pagine web e quindi i loro sorgenti html, non sono presenti né in schemi né in modelli composti da regole tali da definire la forma e tipologia dei dati contenuti, questo porta ad una loro difficile comprensione. Il Text Mining è il processo di trasformazione di testi non strutturati. Nel nostro caso, cioè la conversione di testo in linguaggio naturale presente sul web in dati strutturati, organizzati in schemi e tabelle, è utilizzato con lo scopo di estrarre conoscenza per la classificazione e il raggruppamento in base ai contenuti del testo di input. Attraverso il Text Mining riusciamo a utilizzare tecniche e metodi per la classificazione di pagine web con lo scopo di offrire, all'utente, una navigazione sicura sul web. La User Internet Protection è così attuabile in quanto, avendo ottenuto una classificazione delle pagine web, l’utente potrà decidere le tipologie di siti da oscurare in modo tale da evitare i siti indesiderati con la presenza di malware e virus o siti per adulti e così via. Per ottenere una Web Page Classification, verranno impiegate tecniche e algoritmi per l’estrazione di pattern e conoscenza dal linguaggio scritto e l’addestramento di modelli tramite machine learning, deep learning e natural language processing.

Abstract
Tipologia del documento
Tesi di laurea (Laurea)
Autore della tesi
Bazzocchi, Luca
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
text mining,artificial intelligence,machine learning,artificial neural networks,natural language Processing
Data di discussione della Tesi
8 Ottobre 2020
URI

Altri metadati

Statistica sui download

Gestione del documento: Visualizza il documento

^