Cantagallo, Luca
(2023)
AMRScore: Valutare Automaticamente la Consistenza di Riassunti Astrattivi mediante Semantic Parsing.
[Laurea], Università di Bologna, Corso di Studio in
Ingegneria e scienze informatiche [L-DM270] - Cesena, Documento full-text non disponibile
Il full-text non è disponibile per scelta dell'autore.
(
Contatta l'autore)
Abstract
La generazione automatica di riassunti è una sfida attiva nell'ambito del Natural Language Processing che comporta due problemi principali. In primo luogo, la valutazione automatica della qualità di un riassunto è difficile, soprattutto quando, per la natura astrattiva del problema, il riassunto si discosta significativamente dal documento di origine, pur mantenendo potenzialmente intatta la semantica. In secondo luogo, le metriche attualmente utilizzate in letteratura per la valutazione della similarità tra il documento e il riassunto, spesso misurano la sovrapposizione di n-grammi o operano direttamente su rappresentazioni dense del documento e del riassunto, fallendo nell'obiettivo di gestire l'ambiguità del testo, dove uno stesso concetto può essere espresso in molteplici modi.
In questa tesi proponiamo AMRScore, una metrica per valutare l'allineamento semantico tra un riassunto artificiale e il documento sorgente. La nostra metrica utilizza l'Abstract Meaning Representation (AMR) come astrazione intermedia, un'avanzata tecnica di semantic parsing capace di separare il cosa venga detto dal come, usando rappresentazioni a grafo non ambigue. Nello specifico, proponiamo una soluzione originale basata sull'integrazione di grafi AMR ed Earth Mover Distance (EMD), vedendo la quantificazione dell'allineamento semantico come un problema di ottimizzazione, dove l'obiettivo è calcolare il costo necessario per trasferire nello spazio denso i grafi AMR estratti dal riassunto in quelli derivati invece dal documento.
Abbiamo valutato la nostra metrica su un campione di coppie di documenti e riassunti tratti dal dataset XSUM, confrontandola con altre metriche di valutazione esistenti, quali ROUGE e BERTScore. I risultati sperimentali dimostrano che AMRScore supera le limitazioni delle metriche tradizionali, mostrando una maggiore capacità di catturare la similarità semantica tra il documento e il riassunto.
Abstract
La generazione automatica di riassunti è una sfida attiva nell'ambito del Natural Language Processing che comporta due problemi principali. In primo luogo, la valutazione automatica della qualità di un riassunto è difficile, soprattutto quando, per la natura astrattiva del problema, il riassunto si discosta significativamente dal documento di origine, pur mantenendo potenzialmente intatta la semantica. In secondo luogo, le metriche attualmente utilizzate in letteratura per la valutazione della similarità tra il documento e il riassunto, spesso misurano la sovrapposizione di n-grammi o operano direttamente su rappresentazioni dense del documento e del riassunto, fallendo nell'obiettivo di gestire l'ambiguità del testo, dove uno stesso concetto può essere espresso in molteplici modi.
In questa tesi proponiamo AMRScore, una metrica per valutare l'allineamento semantico tra un riassunto artificiale e il documento sorgente. La nostra metrica utilizza l'Abstract Meaning Representation (AMR) come astrazione intermedia, un'avanzata tecnica di semantic parsing capace di separare il cosa venga detto dal come, usando rappresentazioni a grafo non ambigue. Nello specifico, proponiamo una soluzione originale basata sull'integrazione di grafi AMR ed Earth Mover Distance (EMD), vedendo la quantificazione dell'allineamento semantico come un problema di ottimizzazione, dove l'obiettivo è calcolare il costo necessario per trasferire nello spazio denso i grafi AMR estratti dal riassunto in quelli derivati invece dal documento.
Abbiamo valutato la nostra metrica su un campione di coppie di documenti e riassunti tratti dal dataset XSUM, confrontandola con altre metriche di valutazione esistenti, quali ROUGE e BERTScore. I risultati sperimentali dimostrano che AMRScore supera le limitazioni delle metriche tradizionali, mostrando una maggiore capacità di catturare la similarità semantica tra il documento e il riassunto.
Tipologia del documento
Tesi di laurea
(Laurea)
Autore della tesi
Cantagallo, Luca
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Semantic Similarity,Abstract Meaning Representation,Artificial Text Evaluation,Semantic Parsing,Earth Mover's Distance
Data di discussione della Tesi
17 Marzo 2023
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Cantagallo, Luca
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Semantic Similarity,Abstract Meaning Representation,Artificial Text Evaluation,Semantic Parsing,Earth Mover's Distance
Data di discussione della Tesi
17 Marzo 2023
URI
Gestione del documento: