Carrino, Giuseppe
(2022)
TARO: Infrastruttura per il Confronto di Testate Giornalistiche Internazionali.
[Laurea], Università di Bologna, Corso di Studio in
Informatica [L-DM270]
Documenti full-text disponibili:
|
Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (8MB)
|
Abstract
TARO (Tons of Articles Ready to Outline) è un progetto che ha come scopo quello di realizzare un sistema per la raccolta, l'analisi e il confronto di articoli di giornali online. Sono state scelte come fonti testate giornalistiche internazionali e i loro canali di pubblicazione, come ad esempio i Feed RSS e le Homepage. Gli articoli vengono quindi analizzati attraverso NER e Sentiment Analysis per poi individuare quali argomenti siano trattati da più testate e quali invece risultino esclusivi di una sola, sfruttando algoritmi di similarità.
Il progetto è sviluppato in Python e sono utilizzate diverse librerie, tra cui Scrapy, per la raccolta di articoli, Argos, per la traduzione delle notizie al fine di allinearle linguisticamente, SpaCy, per le analisi semantiche, e Pandas per la visualizzazione dei risultati ottenuti.
Uno degli obiettivi è sfruttare questa pipeline al fine di effettuare analisi socio-culturali interessanti utilizzando le informazioni date dagli articoli giornalistici stessi, oltre che osservare le potenzialità delle analisi semantiche fatte su notiziari.
Abstract
TARO (Tons of Articles Ready to Outline) è un progetto che ha come scopo quello di realizzare un sistema per la raccolta, l'analisi e il confronto di articoli di giornali online. Sono state scelte come fonti testate giornalistiche internazionali e i loro canali di pubblicazione, come ad esempio i Feed RSS e le Homepage. Gli articoli vengono quindi analizzati attraverso NER e Sentiment Analysis per poi individuare quali argomenti siano trattati da più testate e quali invece risultino esclusivi di una sola, sfruttando algoritmi di similarità.
Il progetto è sviluppato in Python e sono utilizzate diverse librerie, tra cui Scrapy, per la raccolta di articoli, Argos, per la traduzione delle notizie al fine di allinearle linguisticamente, SpaCy, per le analisi semantiche, e Pandas per la visualizzazione dei risultati ottenuti.
Uno degli obiettivi è sfruttare questa pipeline al fine di effettuare analisi socio-culturali interessanti utilizzando le informazioni date dagli articoli giornalistici stessi, oltre che osservare le potenzialità delle analisi semantiche fatte su notiziari.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Carrino, Giuseppe
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Giornalismo,Notizie,Similarità,Python,Argos,SpaCy,Pandas,Scrapy,confronto
Data di discussione della Tesi
13 Luglio 2022
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Carrino, Giuseppe
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Giornalismo,Notizie,Similarità,Python,Argos,SpaCy,Pandas,Scrapy,confronto
Data di discussione della Tesi
13 Luglio 2022
URI
Statistica sui download
Gestione del documento: