Clip et Impera: Topic-Centric Video Segmentation with Large Language Models

Babboni, Luca (2023) Clip et Impera: Topic-Centric Video Segmentation with Large Language Models. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena, Documento ad accesso riservato.
Documenti full-text disponibili:
[thumbnail of Thesis] Documento PDF (Thesis)
Full-text non accessibile fino al 30 Giugno 2025.
Disponibile con Licenza: Creative Commons: Attribuzione - Non commerciale - Non opere derivate 4.0 (CC BY-NC-ND 4.0)

Download (1MB) | Contatta l'autore

Abstract

Negli ultimi anni abbiamo assistito a un incremento dell’utilizzo di video per la fruizione di contenuti come conferenze e lezioni. Si presenta quindi la necessità di semplificarne la fruizione, permettendo agli utenti di trovare le informazioni di interesse in tempi rapidi. Questa tesi presenta due contributi principali: un metodo innovativo di segmentazione dei video in capitoli e la creazione di un nuovo dataset. Mentre le attuali soluzioni si affidano a tecniche di analisi testuale primitive, l’impiego delle avanzate tecnologie di Large Language Models rappresenta un territorio inesplorato. Di conseguenza proponiamo una nuova metodologia che sfrutta questa opportunità, utilizzando tali modelli generativi per dividere le trascrizioni in paragrafi in modo che questi risultino contigui rispetto agli argomenti contenuti, previo addestramento atto a permettergli di prevedere gli indici di frase che ne fanno da delimitatore. Nonostante l’evidente rilevanza applicativa di questo argomento, la letteratura attuale non dispone di dataset adeguatamente etichettati. In risposta a questa lacuna introduciamo un nuovo set di dati che incorpora trascrizioni e relative suddivisioni in capitoli con annotazioni supervisionate. Questi dati provengono da video che affrontano temi scientifici e presentano diversità nelle caratteristiche e variazioni di durata. I risultati, valutati con il dataset proposto utilizzando le metriche Pk Score e WindowDiff, indicano che il Large Language Model addestrato presenta una notevole precisione nella suddivisione del testo, fornendo un contributo significativo nel contesto della divisione di video in capitoli.

Abstract
Tipologia del documento
Tesi di laurea (Laurea)
Autore della tesi
Babboni, Luca
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Ordinamento Cds
DM270
Parole chiave
Natural Language Processing,Machine Learning,Large Language Models,Video Segmentation,Topic Segmentation
Data di discussione della Tesi
30 Novembre 2023
URI

Altri metadati

Gestione del documento: Visualizza il documento

^