Clip et Impera: Topic-Centric Video Segmentation with Large Language Models

Babboni, Luca (2023) Clip et Impera: Topic-Centric Video Segmentation with Large Language Models. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena

Salva citazione

Documenti full-text disponibili:

Documento PDF (Thesis)
Disponibile con Licenza: Creative Commons: Attribuzione - Non commerciale - Non opere derivate 4.0 (CC BY-NC-ND 4.0)
Download (1MB)

Abstract

Negli ultimi anni abbiamo assistito a un incremento dell’utilizzo di video per la fruizione di contenuti come conferenze e lezioni. Si presenta quindi la necessità di semplificarne la fruizione, permettendo agli utenti di trovare le informazioni di interesse in tempi rapidi. Questa tesi presenta due contributi principali: un metodo innovativo di segmentazione dei video in capitoli e la creazione di un nuovo dataset. Mentre le attuali soluzioni si affidano a tecniche di analisi testuale primitive, l’impiego delle avanzate tecnologie di Large Language Models rappresenta un territorio inesplorato. Di conseguenza proponiamo una nuova metodologia che sfrutta questa opportunità, utilizzando tali modelli generativi per dividere le trascrizioni in paragrafi in modo che questi risultino contigui rispetto agli argomenti contenuti, previo addestramento atto a permettergli di prevedere gli indici di frase che ne fanno da delimitatore. Nonostante l’evidente rilevanza applicativa di questo argomento, la letteratura attuale non dispone di dataset adeguatamente etichettati. In risposta a questa lacuna introduciamo un nuovo set di dati che incorpora trascrizioni e relative suddivisioni in capitoli con annotazioni supervisionate. Questi dati provengono da video che affrontano temi scientifici e presentano diversità nelle caratteristiche e variazioni di durata. I risultati, valutati con il dataset proposto utilizzando le metriche Pk Score e WindowDiff, indicano che il Large Language Model addestrato presenta una notevole precisione nella suddivisione del testo, fornendo un contributo significativo nel contesto della divisione di video in capitoli.

Abstract

Tipologia del documento

Tesi di laurea (Laurea)

Autore della tesi

Babboni, Luca

Relatore della tesi

Moro, Gianluca

Correlatore della tesi

Frisoni, Giacomo

Scuola

Ingegneria e Architettura

Corso di studio