Documenti full-text disponibili:
Abstract
Low-Resource Summarization (LRS), chiamato anche Few-shot Summarization, si riferisce all'operazione di creare riassunti concisi e coerenti partendo da contenuti testuali quando l'accesso ai dati di addestramento è limitato. Questo argomento di ricerca ha suscitato grande interesse da parte di una vasta comunità di ricercatori ed è attualmente considerato una delle aree di ricerca più utili per le applicazioni del mondo reale, come la sintesi di cartelle cliniche, documenti legali oppure di campi di studio emergenti o molto specializzati. Questo studio offre una panoramica approfondita e attuale dei metodi di LRS esistenti. Include, inoltre, definizioni formali di termini chiave rilevanti per il ramo dell'apprendimento automatico (ML) preso in considerazione. In primo luogo, per aiutare i ricercatori ad orientarsi nella moltitudine di lavori relativi a LRS, proponiamo una tassonomia dettagliata per classificare i contributi presentati dalla comunità. In secondo luogo, definiamo chiaramente il termine "few-shot", spesso usato in modo ambiguo. In terzo luogo, abbiamo stilato delle classifiche confrontando ed analizzando 20 proposte per risolvere il compito della sintesi di dialoghi e documenti in contesti con scarsità di dati su 5 dataset differenti ed utilizzando una metrica comune.
Abstract
Low-Resource Summarization (LRS), chiamato anche Few-shot Summarization, si riferisce all'operazione di creare riassunti concisi e coerenti partendo da contenuti testuali quando l'accesso ai dati di addestramento è limitato. Questo argomento di ricerca ha suscitato grande interesse da parte di una vasta comunità di ricercatori ed è attualmente considerato una delle aree di ricerca più utili per le applicazioni del mondo reale, come la sintesi di cartelle cliniche, documenti legali oppure di campi di studio emergenti o molto specializzati. Questo studio offre una panoramica approfondita e attuale dei metodi di LRS esistenti. Include, inoltre, definizioni formali di termini chiave rilevanti per il ramo dell'apprendimento automatico (ML) preso in considerazione. In primo luogo, per aiutare i ricercatori ad orientarsi nella moltitudine di lavori relativi a LRS, proponiamo una tassonomia dettagliata per classificare i contributi presentati dalla comunità. In secondo luogo, definiamo chiaramente il termine "few-shot", spesso usato in modo ambiguo. In terzo luogo, abbiamo stilato delle classifiche confrontando ed analizzando 20 proposte per risolvere il compito della sintesi di dialoghi e documenti in contesti con scarsità di dati su 5 dataset differenti ed utilizzando una metrica comune.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Artegiani, Emanuele
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Natural Language Processing,Low-Resource Summarization,Few-shot Summarization,Data Augmentation,Pre-Training & Fine-Tuning
Data di discussione della Tesi
30 Novembre 2023
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Artegiani, Emanuele
Relatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Natural Language Processing,Low-Resource Summarization,Few-shot Summarization,Data Augmentation,Pre-Training & Fine-Tuning
Data di discussione della Tesi
30 Novembre 2023
URI
Gestione del documento: