LAWSU-IT: Un Nuovo Dataset Giudiziario italiano per Long Document Summarization con Baseline Estrattive e Astrattive

Guidi, Stefano (2022) LAWSU-IT: Un Nuovo Dataset Giudiziario italiano per Long Document Summarization con Baseline Estrattive e Astrattive. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena, Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore. (Contatta l'autore)

Abstract

L'avanzamento nel campo della long document summarization dipende interamente dalla disponibilità di dataset pubblici di alta qualità e con testi di lunghezza considerevole. Risulta pertanto problematico il fatto che tali dataset risultino spesso solo in lingua inglese, comportandone una limitazione notevole se ci si rivolge a linguaggi le cui risorse sono limitate. A tal scopo, si propone LAWSU-IT, un nuovo dataset giudiziario per long document summarization italiana. LAWSU-IT è il primo dataset italiano di summarization ad avere documenti di grandi dimensioni e a trattare il dominio giudiziario, ed è stato costruito attuando procedure di cleaning dei dati e selezione mirata delle istanze, con lo scopo di ottenere un dataset di long document summarization di alta qualità. Inoltre, sono proposte molteplici baseline sperimentali di natura estrattiva e astrattiva con modelli stato dell'arte e approcci di segmentazione del testo. Si spera che tale risultato possa portare a ulteriori ricerche e sviluppi nell'ambito della long document summarization italiana.

Abstract
Tipologia del documento
Tesi di laurea (Laurea)
Autore della tesi
Guidi, Stefano
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Text Summarization,Large-Scale Dataset,Natural Language Processing,Judicial Data,Supervised Learning
Data di discussione della Tesi
6 Ottobre 2022
URI

Altri metadati

Gestione del documento: Visualizza il documento

^