TARO: Infrastruttura per il Confronto di Testate Giornalistiche Internazionali

Carrino, Giuseppe (2022) TARO: Infrastruttura per il Confronto di Testate Giornalistiche Internazionali. [Laurea], Università di Bologna, Corso di Studio in Informatica [L-DM270]

Salva citazione

Documenti full-text disponibili:

Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (8MB)

Abstract

TARO (Tons of Articles Ready to Outline) è un progetto che ha come scopo quello di realizzare un sistema per la raccolta, l'analisi e il confronto di articoli di giornali online. Sono state scelte come fonti testate giornalistiche internazionali e i loro canali di pubblicazione, come ad esempio i Feed RSS e le Homepage. Gli articoli vengono quindi analizzati attraverso NER e Sentiment Analysis per poi individuare quali argomenti siano trattati da più testate e quali invece risultino esclusivi di una sola, sfruttando algoritmi di similarità. Il progetto è sviluppato in Python e sono utilizzate diverse librerie, tra cui Scrapy, per la raccolta di articoli, Argos, per la traduzione delle notizie al fine di allinearle linguisticamente, SpaCy, per le analisi semantiche, e Pandas per la visualizzazione dei risultati ottenuti. Uno degli obiettivi è sfruttare questa pipeline al fine di effettuare analisi socio-culturali interessanti utilizzando le informazioni date dagli articoli giornalistici stessi, oltre che osservare le potenzialità delle analisi semantiche fatte su notiziari.

Abstract

Tipologia del documento

Tesi di laurea (Laurea)

Autore della tesi

Carrino, Giuseppe

Relatore della tesi

Di Iorio, Angelo

Correlatore della tesi

Barabucci, Gioele

Scuola

Scienze

Corso di studio