Bonfante, Simone
(2020)
Un caso di deep learning applicato alla previsione di guasti in contatori idrici:
dati categorici, riduzione della dimensionalità e altri problemi.
[Laurea magistrale], Università di Bologna, Corso di Studio in
Informatica [LM-DM270], Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore.
(
Contatta l'autore)
Abstract
A seguito di un esperimento condotto con un modello di apprendimento automatico (Deep Learning), progettato con lo scopo di prevedere se un contatore dell'acqua si guastasse con il passare del tempo, ci siamo imbattuti in un caso molto strano, che si è verificato quando abbiamo cercato di potenziare il nostro classificatore, utilizzando anche tutte quelle informazioni di contesto relative al dispositivo, oltre alle misure numeriche di consumo dell’acqua. Queste informazioni sono comunemente chiamate “dati categorici”. Abbiamo riscontrato, sorprendentemente, che queste informazioni non hanno migliorato la precisione di previsione del classificatore, che invece è diminuita in modo significativo. Analizzando attentamente, abbiamo riconosciuto il problema come un caso di un aumento eccessivo delle dimensioni dello spazio dei dati sotto osservazione, con una corrispondente perdita di significatività statistica. Queste considerazioni sono riconducibili a un famoso teorema di R.E. Bellman, denominato come “curse of dimensionality”. Semplificando, indica che possono verificarsi fenomeni problematici in vari domini, come l'apprendimento automatico, quando aumenta la dimensionalità dei dati forniti. Il problema è di rilevanza statistica e si verifica quando il volume totale dello spazio sotto osservazione aumenta in modo significativo, rendendo così scarsi i dati disponibili.
Abbiamo quindi deciso di cambiare la strategia di addestramento: osservando che ogni variabile categorica era riconducibile ad una distribuzione quasi-Pareto, abbiamo ri-addestrato i nostri modelli solo sui valori numerici (riferiti ai consumi dei dispositivi), uno per ogni variabile, ma solamente su quella frazione di contatori che mostravano i fattori qualitativi, secondo la distribuzione, più incidenti per quel dato categorico. Questa nuova strategia ha prodotto risultati sorprendenti, con un livello di precisione della previsione mai raggiunto prima, pari in media a un valore dell'87-88%.
Abstract
A seguito di un esperimento condotto con un modello di apprendimento automatico (Deep Learning), progettato con lo scopo di prevedere se un contatore dell'acqua si guastasse con il passare del tempo, ci siamo imbattuti in un caso molto strano, che si è verificato quando abbiamo cercato di potenziare il nostro classificatore, utilizzando anche tutte quelle informazioni di contesto relative al dispositivo, oltre alle misure numeriche di consumo dell’acqua. Queste informazioni sono comunemente chiamate “dati categorici”. Abbiamo riscontrato, sorprendentemente, che queste informazioni non hanno migliorato la precisione di previsione del classificatore, che invece è diminuita in modo significativo. Analizzando attentamente, abbiamo riconosciuto il problema come un caso di un aumento eccessivo delle dimensioni dello spazio dei dati sotto osservazione, con una corrispondente perdita di significatività statistica. Queste considerazioni sono riconducibili a un famoso teorema di R.E. Bellman, denominato come “curse of dimensionality”. Semplificando, indica che possono verificarsi fenomeni problematici in vari domini, come l'apprendimento automatico, quando aumenta la dimensionalità dei dati forniti. Il problema è di rilevanza statistica e si verifica quando il volume totale dello spazio sotto osservazione aumenta in modo significativo, rendendo così scarsi i dati disponibili.
Abbiamo quindi deciso di cambiare la strategia di addestramento: osservando che ogni variabile categorica era riconducibile ad una distribuzione quasi-Pareto, abbiamo ri-addestrato i nostri modelli solo sui valori numerici (riferiti ai consumi dei dispositivi), uno per ogni variabile, ma solamente su quella frazione di contatori che mostravano i fattori qualitativi, secondo la distribuzione, più incidenti per quel dato categorico. Questa nuova strategia ha prodotto risultati sorprendenti, con un livello di precisione della previsione mai raggiunto prima, pari in media a un valore dell'87-88%.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Bonfante, Simone
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Indirizzo
Curriculum C: Sistemi e reti
Ordinamento Cds
DM270
Parole chiave
Machine Learning,Deep Learning,Contatori idrici,Interazione Uomo-Macchina,Big Data,Data Science,Dati Categorici,Problema della dimensionalità
Data di discussione della Tesi
19 Marzo 2020
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Bonfante, Simone
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Indirizzo
Curriculum C: Sistemi e reti
Ordinamento Cds
DM270
Parole chiave
Machine Learning,Deep Learning,Contatori idrici,Interazione Uomo-Macchina,Big Data,Data Science,Dati Categorici,Problema della dimensionalità
Data di discussione della Tesi
19 Marzo 2020
URI
Gestione del documento: