Morsucci, Federico
(2025)
Creazione di una pipeline di acquisizione continua di report sec Edgar per analisi finanziarie basate su machine learning.
[Laurea], Università di Bologna, Corso di Studio in
Ingegneria e scienze informatiche [L-DM270] - Cesena, Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore.
(
Contatta l'autore)
Abstract
Questo lavoro propone un approccio per affrontare la raccolta, strutturazione e aggiornamento automatico dei dati finanziari provenienti dai filing pubblicati dalla Securities and Exchange Commission (SEC) attraverso la piattaforma EDGAR, una delle principali fonti informative per l’analisi economico-finanziaria delle imprese quotate.
La crescente disponibilità di dati digitali rende infatti possibile lo sviluppo di modelli predittivi sempre più sofisticati, ma richiede al contempo infrastrutture di acquisizione affidabili, scalabili e capaci di garantire la qualità e la coerenza delle informazioni nel tempo.
L’obiettivo di questo lavoro è la progettazione e implementazione di una pipeline di acquisizione continua capace di estrarre automaticamente i documenti SEC, analizzarne la struttura, normalizzare i contenuti contabili e archiviarli in un formato coerente e prontamente utilizzabile per applicazioni di machine learning.
La pipeline è stata realizzata con un’architettura modulare e automatizzata che consente la gestione incrementale dei dati e integra procedure di controllo di qualità, sebbene con alcune limitazioni in termini di efficienza operativa e copertura dei filing più complessi.
Il dataset generato rappresenta una base informativa solida e aggiornabile, sulla quale sono stati condotti esperimenti esplorativi di previsione del default aziendale e classificazione settoriale.
Tali esperimenti hanno avuto lo scopo di validare la consistenza e l’utilizzabilità dei dati, dimostrando che anche una pipeline sperimentale può produrre un archivio informativo sufficientemente ricco da supportare modelli predittivi affidabili e analisi quantitative di rischio.
In conclusione, il lavoro propone un contributo metodologico e tecnico per la costruzione di dataset finanziari standardizzati e replicabili, offrendo una base concreta per futuri sviluppi.
Abstract
Questo lavoro propone un approccio per affrontare la raccolta, strutturazione e aggiornamento automatico dei dati finanziari provenienti dai filing pubblicati dalla Securities and Exchange Commission (SEC) attraverso la piattaforma EDGAR, una delle principali fonti informative per l’analisi economico-finanziaria delle imprese quotate.
La crescente disponibilità di dati digitali rende infatti possibile lo sviluppo di modelli predittivi sempre più sofisticati, ma richiede al contempo infrastrutture di acquisizione affidabili, scalabili e capaci di garantire la qualità e la coerenza delle informazioni nel tempo.
L’obiettivo di questo lavoro è la progettazione e implementazione di una pipeline di acquisizione continua capace di estrarre automaticamente i documenti SEC, analizzarne la struttura, normalizzare i contenuti contabili e archiviarli in un formato coerente e prontamente utilizzabile per applicazioni di machine learning.
La pipeline è stata realizzata con un’architettura modulare e automatizzata che consente la gestione incrementale dei dati e integra procedure di controllo di qualità, sebbene con alcune limitazioni in termini di efficienza operativa e copertura dei filing più complessi.
Il dataset generato rappresenta una base informativa solida e aggiornabile, sulla quale sono stati condotti esperimenti esplorativi di previsione del default aziendale e classificazione settoriale.
Tali esperimenti hanno avuto lo scopo di validare la consistenza e l’utilizzabilità dei dati, dimostrando che anche una pipeline sperimentale può produrre un archivio informativo sufficientemente ricco da supportare modelli predittivi affidabili e analisi quantitative di rischio.
In conclusione, il lavoro propone un contributo metodologico e tecnico per la costruzione di dataset finanziari standardizzati e replicabili, offrendo una base concreta per futuri sviluppi.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Morsucci, Federico
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Financial Data Pipeline,SEC EDGAR,Machine Learning,Default Prediction
Data di discussione della Tesi
27 Novembre 2025
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Morsucci, Federico
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Financial Data Pipeline,SEC EDGAR,Machine Learning,Default Prediction
Data di discussione della Tesi
27 Novembre 2025
URI
Gestione del documento: