Mancini, Andrea
(2025)
Dal Natural Language Processing alle proteine: apprendimento automatico di sequenze mediante Transformer.
[Laurea magistrale], Università di Bologna, Corso di Studio in
Informatica [LM-DM270]
Documenti full-text disponibili:
![[thumbnail of Thesis]](https://amslaurea.unibo.it/style/images/fileicons/application_pdf.png) |
Documento PDF (Thesis)
Disponibile con Licenza: Salvo eventuali più ampie autorizzazioni dell'autore, la tesi può essere liberamente consultata e può essere effettuato il salvataggio e la stampa di una copia per fini strettamente personali di studio, di ricerca e di insegnamento, con espresso divieto di qualunque utilizzo direttamente o indirettamente commerciale. Ogni altro diritto sul materiale è riservato
Download (5MB)
|
Abstract
Classificare milioni di proteine in base alla loro funzione rappresenta una sfida computazionale significativa. I metodi tradizionali come BLAST o modelli di Markov mostrano limiti nel riconoscimento di pattern distanti e funzioni distinte. Partendo da ProfileView, un software per l'identificazione di classi funzionali, il nostro obiettivo è classificare su larga scala proteine, attingendo a vasti database e ai continui progressi nel sequenziamento ad alto rendimento. Sulla base dei recenti progressi fatti nel Natural Language Processing con l'architettura Transformer, abbiamo implementato DomainSpanESM per l'identificazione di schemi nelle sequenze funzionalmente correlate, facilitando la classificazione di milioni di sequenze in gruppi definiti. Inoltre, grazie all'allineamento di sequenze, sono stati riconosciuti diversi amminoacidi altamente conservati, ritrovati frequentemente lungo le stesse posizioni nella matrice, e risultati cruciali per la definizione delle classi, offrendo spunti sulle sfumature funzionali di ognuna di esse. Sperimentato su famiglie proteiche di rilievo come Thioredoxin (TRX) e Cryptochrome/Photolyase (CPF), DomainSpanESM rappresenta un progresso nell’annotazione e classificazione funzionale su larga scala, migliorando la comprensione delle funzioni proteiche e delle loro relazioni evolutive.
Abstract
Classificare milioni di proteine in base alla loro funzione rappresenta una sfida computazionale significativa. I metodi tradizionali come BLAST o modelli di Markov mostrano limiti nel riconoscimento di pattern distanti e funzioni distinte. Partendo da ProfileView, un software per l'identificazione di classi funzionali, il nostro obiettivo è classificare su larga scala proteine, attingendo a vasti database e ai continui progressi nel sequenziamento ad alto rendimento. Sulla base dei recenti progressi fatti nel Natural Language Processing con l'architettura Transformer, abbiamo implementato DomainSpanESM per l'identificazione di schemi nelle sequenze funzionalmente correlate, facilitando la classificazione di milioni di sequenze in gruppi definiti. Inoltre, grazie all'allineamento di sequenze, sono stati riconosciuti diversi amminoacidi altamente conservati, ritrovati frequentemente lungo le stesse posizioni nella matrice, e risultati cruciali per la definizione delle classi, offrendo spunti sulle sfumature funzionali di ognuna di esse. Sperimentato su famiglie proteiche di rilievo come Thioredoxin (TRX) e Cryptochrome/Photolyase (CPF), DomainSpanESM rappresenta un progresso nell’annotazione e classificazione funzionale su larga scala, migliorando la comprensione delle funzioni proteiche e delle loro relazioni evolutive.
Tipologia del documento
Tesi di laurea
(Laurea magistrale)
Autore della tesi
Mancini, Andrea
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Indirizzo
CURRICULUM A: TECNICHE DEL SOFTWARE
Ordinamento Cds
DM270
Parole chiave
Transformers,Proteine,Funzione,Classificazione,Machine Learning,Deep Learning,ProfileView,Intelligenza Artificiale,Dominio,Conservazione,ESM,NLP
Data di discussione della Tesi
27 Marzo 2025
URI
Altri metadati
Tipologia del documento
Tesi di laurea
(NON SPECIFICATO)
Autore della tesi
Mancini, Andrea
Relatore della tesi
Correlatore della tesi
Scuola
Corso di studio
Indirizzo
CURRICULUM A: TECNICHE DEL SOFTWARE
Ordinamento Cds
DM270
Parole chiave
Transformers,Proteine,Funzione,Classificazione,Machine Learning,Deep Learning,ProfileView,Intelligenza Artificiale,Dominio,Conservazione,ESM,NLP
Data di discussione della Tesi
27 Marzo 2025
URI
Statistica sui download
Gestione del documento: