Danzì, Paolo
(2011)
Mining dei Workflow di un Laboratorio di Anatomia Patologica.
[Laurea magistrale], Università di Bologna, Corso di Studio in
Ingegneria gestionale [LM-DM270], Documento ad accesso riservato.
Documenti full-text disponibili:
Abstract
Il presente lavoro nasce dall’obiettivo di individuare strumenti statistici per
indagare, sotto diversi aspetti, il flusso di lavoro di un Laboratorio di
Anatomia Patologica. Il punto di partenza dello studio è l’ambiente di
lavoro di ATHENA, software gestionale utilizzato nell’Anatomia
Patologica, sviluppato dalla NoemaLife S.p.A., azienda specializzata
nell’informatica per la sanità. A partire da tale applicativo è stato
innanzitutto formalizzato il workflow del laboratorio (Capitolo 2), nelle
sue caratteristiche e nelle sue possibili varianti, identificando le operazioni
principali attraverso una serie di “fasi”. Proprio le fasi, unitamente alle
informazioni addizionali ad esse associate, saranno per tutta la trattazione
e sotto diversi punti di vista al centro dello studio.
L’analisi che presentiamo è stata per completezza sviluppata in due
scenari che tengono conto di diversi aspetti delle informazioni in possesso. Il primo scenario tiene conto delle sequenze di fasi, che si presentano nel
loro ordine cronologico, comprensive di eventuali ripetizioni o cicli di fasi
precedenti alla conclusione. Attraverso l’elaborazione dei dati secondo
specifici formati è stata svolta un’iniziale indagine grafica di Workflow
Mining (Capitolo 3) grazie all’ausilio di EMiT, un software che attraverso
un set di log di processo restituisce graficamente il flusso di lavoro che li
rappresenta. Questa indagine consente già di valutare la completezza
dell’utilizzo di un applicativo rispetto alle sue potenzialità.
Successivamente, le stesse fasi sono state elaborate attraverso uno
specifico adattamento di un comune algoritmo di allineamento globale,
l’algoritmo Needleman-Wunsch (Capitolo 4). L’utilizzo delle tecniche di
allineamento applicate a sequenze di processo è in grado di individuare,
nell’ambito di una specifica codifica delle fasi, le similarità tra casi clinici.
L’algoritmo di Needleman-Wunsch individua le identità e le discordanze
tra due stringhe di caratteri, assegnando relativi punteggi che portano a
valutarne la similarità. Tale algoritmo è stato opportunamente modificato
affinché possa riconoscere e penalizzare differentemente cicli e ripetizioni,
piuttosto che fasi mancanti. Sempre in ottica di allineamento sarà utilizzato
l’algoritmo euristico Clustal, che a partire da un confronto pairwise tra
sequenze costruisce un dendrogramma rappresentante graficamente
l’aggregazione dei casi in funzione della loro similarità. Proprio il
dendrogramma, per la sua struttura grafica ad albero, è in grado di
mostrare intuitivamente l’andamento evolutivo della similarità di un
pattern di casi.
Il secondo scenario (Capitolo 5) aggiunge alle sequenze l’informazione
temporale in termini di istante di esecuzione di ogni fase. Da un dominio
basato su sequenze di fasi, si passa dunque ad uno scenario di serie
temporali. I tempi rappresentano infatti un dato essenziale per valutare la
performance di un laboratorio e per individuare la conformità agli standard
richiesti. Il confronto tra i casi è stato effettuato con diverse modalità, in
modo da stabilire la distanza tra tutte le coppie sotto diversi aspetti: le
sequenze, rappresentate in uno specifico sistema di riferimento, sono state confrontate in base alla Distanza Euclidea ed alla Dynamic Time Warping,
in grado di esprimerne le discordanze rispettivamente temporali, di forma
e, dunque, di processo. Alla luce dei risultati e del loro confronto, saranno
presentate già in questa fase le prime valutazioni sulla pertinenza delle
distanze e sulle informazioni deducibili da esse.
Il Capitolo 6 rappresenta la ricerca delle correlazioni tra elementi
caratteristici del processo e la performance dello stesso. Svariati fattori
come le procedure utilizzate, gli utenti coinvolti ed ulteriori specificità
determinano direttamente o indirettamente la qualità del servizio erogato.
Le distanze precedentemente calcolate vengono dunque sottoposte a
clustering, una tecnica che a partire da un insieme eterogeneo di elementi
individua famiglie o gruppi simili. L’algoritmo utilizzato sarà l’UPGMA,
comunemente applicato nel clustering in quanto, utilizzando, una logica di
medie pesate, porta a clusterizzazioni pertinenti anche in ambiti diversi,
dal campo biologico a quello industriale. L’ottenimento dei cluster potrà
dunque essere finalmente sottoposto ad un’attività di ricerca di
correlazioni utili, che saranno individuate ed interpretate relativamente
all’attività gestionale del laboratorio.
La presente trattazione propone quindi modelli sperimentali adattati al
caso in esame ma idealmente estendibili, interamente o in parte, a tutti i
processi che presentano caratteristiche analoghe.
Abstract
Il presente lavoro nasce dall’obiettivo di individuare strumenti statistici per
indagare, sotto diversi aspetti, il flusso di lavoro di un Laboratorio di
Anatomia Patologica. Il punto di partenza dello studio è l’ambiente di
lavoro di ATHENA, software gestionale utilizzato nell’Anatomia
Patologica, sviluppato dalla NoemaLife S.p.A., azienda specializzata
nell’informatica per la sanità. A partire da tale applicativo è stato
innanzitutto formalizzato il workflow del laboratorio (Capitolo 2), nelle
sue caratteristiche e nelle sue possibili varianti, identificando le operazioni
principali attraverso una serie di “fasi”. Proprio le fasi, unitamente alle
informazioni addizionali ad esse associate, saranno per tutta la trattazione
e sotto diversi punti di vista al centro dello studio.
L’analisi che presentiamo è stata per completezza sviluppata in due
scenari che tengono conto di diversi aspetti delle informazioni in possesso. Il primo scenario tiene conto delle sequenze di fasi, che si presentano nel
loro ordine cronologico, comprensive di eventuali ripetizioni o cicli di fasi
precedenti alla conclusione. Attraverso l’elaborazione dei dati secondo
specifici formati è stata svolta un’iniziale indagine grafica di Workflow
Mining (Capitolo 3) grazie all’ausilio di EMiT, un software che attraverso
un set di log di processo restituisce graficamente il flusso di lavoro che li
rappresenta. Questa indagine consente già di valutare la completezza
dell’utilizzo di un applicativo rispetto alle sue potenzialità.
Successivamente, le stesse fasi sono state elaborate attraverso uno
specifico adattamento di un comune algoritmo di allineamento globale,
l’algoritmo Needleman-Wunsch (Capitolo 4). L’utilizzo delle tecniche di
allineamento applicate a sequenze di processo è in grado di individuare,
nell’ambito di una specifica codifica delle fasi, le similarità tra casi clinici.
L’algoritmo di Needleman-Wunsch individua le identità e le discordanze
tra due stringhe di caratteri, assegnando relativi punteggi che portano a
valutarne la similarità. Tale algoritmo è stato opportunamente modificato
affinché possa riconoscere e penalizzare differentemente cicli e ripetizioni,
piuttosto che fasi mancanti. Sempre in ottica di allineamento sarà utilizzato
l’algoritmo euristico Clustal, che a partire da un confronto pairwise tra
sequenze costruisce un dendrogramma rappresentante graficamente
l’aggregazione dei casi in funzione della loro similarità. Proprio il
dendrogramma, per la sua struttura grafica ad albero, è in grado di
mostrare intuitivamente l’andamento evolutivo della similarità di un
pattern di casi.
Il secondo scenario (Capitolo 5) aggiunge alle sequenze l’informazione
temporale in termini di istante di esecuzione di ogni fase. Da un dominio
basato su sequenze di fasi, si passa dunque ad uno scenario di serie
temporali. I tempi rappresentano infatti un dato essenziale per valutare la
performance di un laboratorio e per individuare la conformità agli standard
richiesti. Il confronto tra i casi è stato effettuato con diverse modalità, in
modo da stabilire la distanza tra tutte le coppie sotto diversi aspetti: le
sequenze, rappresentate in uno specifico sistema di riferimento, sono state confrontate in base alla Distanza Euclidea ed alla Dynamic Time Warping,
in grado di esprimerne le discordanze rispettivamente temporali, di forma
e, dunque, di processo. Alla luce dei risultati e del loro confronto, saranno
presentate già in questa fase le prime valutazioni sulla pertinenza delle
distanze e sulle informazioni deducibili da esse.
Il Capitolo 6 rappresenta la ricerca delle correlazioni tra elementi
caratteristici del processo e la performance dello stesso. Svariati fattori
come le procedure utilizzate, gli utenti coinvolti ed ulteriori specificità
determinano direttamente o indirettamente la qualità del servizio erogato.
Le distanze precedentemente calcolate vengono dunque sottoposte a
clustering, una tecnica che a partire da un insieme eterogeneo di elementi
individua famiglie o gruppi simili. L’algoritmo utilizzato sarà l’UPGMA,
comunemente applicato nel clustering in quanto, utilizzando, una logica di
medie pesate, porta a clusterizzazioni pertinenti anche in ambiti diversi,
dal campo biologico a quello industriale. L’ottenimento dei cluster potrà
dunque essere finalmente sottoposto ad un’attività di ricerca di
correlazioni utili, che saranno individuate ed interpretate relativamente
all’attività gestionale del laboratorio.
La presente trattazione propone quindi modelli sperimentali adattati al
caso in esame ma idealmente estendibili, interamente o in parte, a tutti i
processi che presentano caratteristiche analoghe.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Danzì, Paolo
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
workflow, mining, anatomia patologica, emit, clustering, allineamento, alignment, clustal, needleman-wunsch, laboratorio, noemalife, data mining, performance, weka, dynamic time warping, dtw
Data di discussione della Tesi
20 Dicembre 2011
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(?? magistrale ??)
Autore della tesi
Danzì, Paolo
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
workflow, mining, anatomia patologica, emit, clustering, allineamento, alignment, clustal, needleman-wunsch, laboratorio, noemalife, data mining, performance, weka, dynamic time warping, dtw
Data di discussione della Tesi
20 Dicembre 2011
URI
Gestione del documento: