Bugo, Laura
(2018)
authorship analysis: studio delle metodologie e sviluppo di un sistema di riconoscimento.
[Laurea], Università di Bologna, Corso di Studio in
Informatica [L-DM270], Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore.
(
Contatta l'autore)
Abstract
Lo scopo del lavoro è quello di implementare un programma per il riconoscimento degli autori che permetta di individuare, tra un gruppo di sospetti, l'autore di un testo ignoto, avendo in input alcuni testi per ogni sospetto.
Dai testi degli autori sono state estratte delle caratteristiche stilistiche costruite basandosi su esperimenti presenti in letteratura e attraverso l'utilizzo di nuove tecnologie non ancora testate nel problema dell'authorship attribution, Le caratteristiche stilistiche costruite sono quindi utilizzate per riconoscere gli autori dei testi di cui non è nota la paternità.
Le nuove tecnologie utilizzate sono principalmente due: l'algoritmo word2vec, che permette di ottenere un'idea della distanza semantica che separa tra loro le parole, e il classificatore XGBoost, che, rispetto ai classificatori utilizzati in altri esperimenti, è più flessibile ed efficace.
I risultati ottenuti con l'ausilio di queste nuove tecnologie sono molto elevati e presentano un buon miglioramento rispetto allo stato dell'arte.
Abstract
Lo scopo del lavoro è quello di implementare un programma per il riconoscimento degli autori che permetta di individuare, tra un gruppo di sospetti, l'autore di un testo ignoto, avendo in input alcuni testi per ogni sospetto.
Dai testi degli autori sono state estratte delle caratteristiche stilistiche costruite basandosi su esperimenti presenti in letteratura e attraverso l'utilizzo di nuove tecnologie non ancora testate nel problema dell'authorship attribution, Le caratteristiche stilistiche costruite sono quindi utilizzate per riconoscere gli autori dei testi di cui non è nota la paternità.
Le nuove tecnologie utilizzate sono principalmente due: l'algoritmo word2vec, che permette di ottenere un'idea della distanza semantica che separa tra loro le parole, e il classificatore XGBoost, che, rispetto ai classificatori utilizzati in altri esperimenti, è più flessibile ed efficace.
I risultati ottenuti con l'ausilio di queste nuove tecnologie sono molto elevati e presentano un buon miglioramento rispetto allo stato dell'arte.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Bugo, Laura
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
authorship attribution,autore,word2vec,XGBoost,caratteristiche stilometriche,authorship analysis
Data di discussione della Tesi
18 Luglio 2018
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Bugo, Laura
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
authorship attribution,autore,word2vec,XGBoost,caratteristiche stilometriche,authorship analysis
Data di discussione della Tesi
18 Luglio 2018
URI
Gestione del documento: