STRUMENTI DI NAVIGAZIONE

Annotazione automatica di token rilevanti per dialog summarization astrattiva

Raffoni, Federico (2023) Annotazione automatica di token rilevanti per dialog summarization astrattiva. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena, Documento full-text non disponibile

Salva citazione

Il full-text non è disponibile per scelta dell'autore. (Contatta l'autore)

Abstract

Negli ultimi anni, la sintesi astrattiva dei dialoghi è emersa come un'area di ricerca critica nell'elaborazione del linguaggio naturale. Sebbene abbia svariate applicazioni, tra cui il miglioramento di agenti conversazionali e l'estrazione di conoscenza strutturata, riassumere automaticamente dialoghi rimane un task sfidante, oggetto di ricerche continue. La natura del dialogo, infatti, richiede di gestire multipli speaker, co-referenze, ed evoluzioni di stato. La natura informale di colloqui o chat, inoltre, aggrava la complessità di tale processo generativo. Per far fronte a queste sfide, i sistemi di input augmentation e semantic parsing sono sempre più utilizzati, consentendo di arricchire il contesto fornito a una rete neurale e di incrementare le capacità di comprensione di quest'ultima. Questa tesi propone un'originale tecnica di input augmentation capace di migliorare l'efficacia di language model per sintesi astrattiva di dialoghi. Il sistema prevede due fasi di addestramento. Nella prima, un modello generativo viene addestrato ad annotare, mediante tag speciali, le porzioni di testo rilevanti nel documento sorgente, escludendo quelle prive di informazioni. Nella seconda, un summarizer neurale viene addestrato a fare il riepilogo dei dialoghi stessi, sfruttando il corpus aumentato. Il sistema di annotazione permette di raggiungere prestazioni all'avanguardia sul dataset attualmente più voluminoso, \textsc{SAMSum}, con un incremento dei punteggi ROUGE-1, ROUGE-2 e ROUGE-L rispetto ai modelli esistenti. Il sistema di tagging introdotto permette al modello di concentrarsi sulle parole che più sono utili alla produzione di un riepilogo accurato, trascurando le altre. Analisi qualitative sugli score di attention confermano tale comportamento.

Abstract

Tipologia del documento

Tesi di laurea (Laurea)

Autore della tesi

Raffoni, Federico

Relatore della tesi

Moro, Gianluca

Correlatore della tesi

Frisoni, Giacomo

Scuola

Ingegneria e Architettura

Corso di studio