Ingegneria Informatica e dell’Intelligenza Artificiale Applicata LM-32
Elementi di Bioinformatica
| Settore scientifico disciplinare | Numero crediti formativi (CFU) | Docente |
| ING-INF/06 | 8 | Giulia Fiscon |
Obiettivi formativi
L'insegnamento degli elementi di bioinformatica nasce dalla necessità di fornire agli studenti le competenze fondamentali per l'analisi computazionale dei dati biologici, disciplina che rappresenta oggi un ponte essenziale tra biologia, medicina e informatica. Tali conoscenze costituiscono un bagaglio per ingegneri informatici che possano operare nell'ambito della ricerca informatica con applicazione biomedica e dello sviluppo di terapie personalizzate, settori in cui l'integrazione tra big data biologici e metodi computazionali avanzati è diventata cruciale per il progresso scientifico e l'innovazione tecnologica.
Il corso si articola in diverse sezioni progressive che accompagnano lo studente dalla comprensione teorica all'applicazione pratica. La prima sezione fornisce le basi della bioinformatica e introduce i fondamenti di biologia molecolare, insieme alle principali banche dati biologiche (NCBI, GEO, KEGG) e agli strumenti per l'interrogazione e la ricerca di sequenze. Una seconda sezione è dedicata all'apprendimento del linguaggio di programmazione R, strumento fondamentale per l'analisi statistica dei dati biologici. La terza sezione approfondisce i metodi di analisi di dati biologici, dalla statistica descrittiva ai test di ipotesi e tecniche di arricchimento funzionale, all'analisi delle componenti principali e al clustering, fornendo gli strumenti teorici e pratici per l'interpretazione di dataset complessi. Un’ultima sezione è dedicata a casi di studio reali, con particolare focus sull'analisi dei geni differenzialmente espressi, permettendo agli studenti di comprende l’applicazione concreta delle competenze acquisite su dati provenienti da esperimenti di trascrittomica.
ORGANIZZAZIONE DIDATTICA
Attività didattiche previste
Il corso è erogato attraverso lezioni frontali videoregistrate e sessioni di didattica interattiva sincrona, che permettono di approfondire i contenuti teorici e di svolgere esercitazioni. L’attività didattica è supportata da materiali specifici e risorse digitali rese disponibili sulla piattaforma di e-learning di Ateneo.
Le attività di didattica, suddivise tra didattica erogativa (DE) e didattica interattiva (DI), saranno costituite da 7 ore per CFU e ripartite secondo una struttura di 2,5 ore di DE (5 ore, tenuta in considerazione la necessità di riascolto) e di 2 ore di DI per ciascun CFU.
Attività didattica erogativa (40 ore)
- 40 lezioni frontali videoregistrate, della durata di circa 30 minuti ciascuna (tenuta in considerazione la necessità di riascolto) sempre disponibili in piattaforma.
Attività didattica interattiva (16 ore):
Lezioni di didattica interattiva sincrona svolte tramite piattaforma didattica dedicate all’approfondimento dei contenuti teorici, alla discussione collettiva e allo svolgimento di esercitazioni guidate.
Attività di autoapprendimento:
Le ore di autoapprendimento previste sono dedicate allo studio dei materiali forniti dal docente.
Ricevimento studenti
Gli studenti potranno essere ricevuti in modalità telematica previo appuntamento col docente e tramite piattaforma.
Testi
Risultati di apprendimento attesi
I risultati di apprendimento attesi sono:
- Conoscenze altamente specializzate in specifici ambiti di lavoro o studio, come base per pensiero originario e ricerca
- Consapevolezza critica delle questioni legate alla conoscenza e alle interconnessioni tra ambiti disciplinari diversi, come la biologia e l’informatica
- Abilità specializzate orientate alla risoluzione di problemi per la ricerca e l'innovazione, finalizzate allo sviluppo di nuove conoscenze e procedure
- Capacità di integrazione delle conoscenze acquisite in ambiti disciplinari diversi
- Competenze nella gestione e trasformazione di contesti di lavoro complessi e imprevedibili che richiedono nuovi approcci strategici
Nello specifico per il corso di elementi di bioinformatica:
Conoscenza e capacità di comprensione
Conoscenza degli strumenti teorici e metodologici necessari per l'analisi computazionale dei dati biologici. Capacità di comprensione dei principi fondamentali della biologia molecolare e delle caratteristiche delle principali banche dati biologiche. Comprensione dei metodi statistici applicati all'analisi di dati genomici e trascrittomici e delle tecniche di data mining per l'interpretazione di dataset biologici complessi.
Capacità di applicare conoscenza e comprensione
Gli studenti dovranno essere in grado di utilizzare il linguaggio R per l'analisi statistica di dati biologici, interrogare efficacemente le banche dati biologiche, applicare tecniche di arricchimento funzionale e metodi di clustering per l'identificazione di pattern biologicamente significativi in dataset sperimentali reali.
Abilità di giudizio
Agli studenti saranno forniti i criteri per la valutazione critica della qualità dei dati biologici, per la scelta appropriata dei metodi statistici in funzione del tipo di dataset e del quesito biologico, e per l'interpretazione corretta dei risultati dell'analisi bioinformatica nel contesto biologico e clinico di riferimento.
Abilità di comunicare
Capacità di motivare le scelte metodologiche prendendo come riferimento studi scientifici che hanno contribuito in maniera evidente allo sviluppo delle tecniche di bioinformatica. Capacità di descrivere e commentare i risultati delle analisi bioinformatiche, adeguando le forme comunicative agli interlocutori del settore biomedico, dalla comunità scientifica ai professionisti sanitari.
Capacità di apprendimento
Capacità di analizzare criticamente casi di studio biologici attraverso l'applicazione integrata delle tecniche bioinformatiche apprese. Capacità di aggiornamento attraverso la consultazione di pubblicazioni scientifiche nell'ambito della bioinformatica, con particolare attenzione alle nuove metodologie di analisi dei big data biologici e alle loro applicazioni in medicina di precisione
MODALITA DI ESAME, PREREQUISITI, ESAMI PROPEDEUTICI
Modalità di accertamento dei risultati di apprendimento acquisiti dallo studente
L'acquisizione dei risultati di apprendimento previsti viene accertata attraverso la verifica del completamento delle attività di autovalutazione presenti alla fine di ogni lezione dell'insegnamento e attraverso la prova di esame.
I test di autovalutazione permettono allo studente di monitorare la propria comprensione degli argomenti somministrati e, nel caso ci siano delle difficoltà, di attivarsi per colmare le lacune o chiedere ulteriori spiegazioni tramite incontri col docente.
Tutti i contenuti trattati nell’ambito dell’insegnamento costituiscono oggetto di valutazione.
La valutazione delle competenze acquisite dallo studente avverrà attraverso un colloquio orale o in forma scritta, nelle date d’appello previste dall’Ateneo e pubblicate in piattaforma, e alla valutazione di un progetto pratico da consegnare prima dell’esame. Attraverso la prova scritta (oppure il colloquio) sarà valutata la conoscenza degli elementi di carattere teorico mentre la valutazione del progetto valuterà la capacità di applicazione pratica delle nozioni acquisite.
Modalità di esame
Al termine del corso è previsto lo svolgimento di un esame di profitto composto da una parte progettuale (elaborato) e da una prova teorica.
La valutazione della prova teorica andrà a fare media ponderata con la valutazione del progetto pratico richiesto (elaborato) che avrà un peso del 50% del voto totale. Lo svolgimento dell’elaborato è obbligatorio e il conseguimento di una votazione sufficiente per esso (18/30) costituisce prerequisito per l’accesso alla prova teorica.
L'elaborato dovrà dimostrare la capacità dello studente di:
· Interrogare e utilizzare le principali banche dati biologiche
· Applicare correttamente i metodi di analisi studiati
· Interpretare criticamente i risultati ottenuti nel contesto biologico appropriato
· Presentare i risultati in forma chiara e scientificamente rigorosa
Lo studente dovrà sostenere una prova teorica volta a dimostrare la conoscenza di tutti gli argomenti trattati durante le lezioni ed in particolare dovrà dimostrare di aver acquisito le conoscenze di base per trattare dati biologici e di averne compreso le relative problematiche. L’esame teorico è un quiz a risposta chiusa che prevede n°30 domande a risposta multipla (di cui 1 sola è corretta). Se l’esame teorico sarà risultato sufficiente (18/30) dovrà essere convalidato con un colloquio orale in presenza (che potrà confermare il voto del test o alzare il voto fino a un massimo di due punti).
Propedeuticità
Non ci sono propedeuticità
Prerequisiti
Non sono necessari prerequisiti
Programma del corso
1. BIOINFORMATICA E FONTI DI DATI BIOLOGICI (~3 CFU)
- Introduzione alla bioinformatica: definizione e applicazioni.
- Elementi di biologia molecolare: DNA, RNA e proteine.
- Elementi di biologia molecolare: gene, espressione genica e regolazione dell’espressione genica.
- Elementi di biologia molecolare: RNA non codificanti proteina
- Sequenze biologiche e introduzione alle banche dati biologiche.
- : La banca dati NCBI (National Center for Biotechnology Information): NCBI Gene
- Le banche dati NCBI PubMed e NCBI RefSeq
- La banca dati The Human Protein Atlas
- L'allineamento di sequenze e lo strumento BLAST: principi di funzionamento, tipologie di ricerca e interpretazione dei risultati
- Il progetto Gene Ontology (GO): classificazione funzionale dei geni. Termini GO e struttura gerarchica.
- I pathways biologici e la banca dati KEGG: mappe interattive e analisi dei percorsi biologici
- Lo strumento Biomart: la conversione di identificativi dei geni, estrazione di caratteristiche e termini GO.
- Dati di espressione genica: la banca dati Gene Expression Omnibus (GEO) e il The Cancer Genome Atlas (TCGA).
- Le banche dati di interazione microRNA-target
2. LINGUAGGIO DI PROGRAMMAZIONE R (~1 CFU)
- Introduzione al linguaggio R: installazione, interfaccia e ambiente di sviluppo RStudio, vettori.
- Elementi di programmazione R: matrici, liste e data frame.
- Elementi di programmazione R: lettura e scrittura, input/output, funzioni.
- Elementi di programmazione R: Strutture e funzioni di controllo.
- Elementi di programmazione R: elementi grafici di base
- Elementi di programmazione R: boxplot, pacchetti e librerie grafiche
3. STRUMENTI DI ANALISI DATI BIOLOGI (~3 CFU)
- Introduzione alla statistica: statistica descrittiva e inferenziale
- Statistica descrittiva: tipi di variabili, rappresentazione grafica e tabellare
- Statistica descrittiva: misure di centralità (media, mediana, moda), misure di dispersione (varianza, deviazione standard).
- Gli indici di posizione: i quantili.
- Il range interquartile e la rappresentazione grafica come boxplot
- Distribuzioni di probabilità: distribuzione normale
- Distribuzioni di probabilità: lo zscore
- Statistica inferenziale: introduzione ai test di ipotesi
- Statistica inferenziale: procedura test di ipotesi, test per la media e calcolo del p-value
- Statistica inferenziale: Test t-Student (t-test) per campioni appaiati e indipendenti
- Test Chi Quadro e ipergeometrico: principi teorici
- Analisi di arricchimento funzionale e lo strumento EnrichR
- Indice di correlazione lineare e sue applicazioni
- Analisi di clustering: clustering gerarchico e partizionale. Applicazioni del clustering ai dati biologici: classificazione di campioni e identificazione di sottogruppi
- Analisi delle componenti principali
- La teoria delle reti in biologia e medicina
4. CASI DI STUDIO E APPLICAZIONI PRATICHE (~1 CFU)
- Applicazioni di statistica in R: funzioni statistiche di base, visualizzazione dei dati
- Analisi dei geni differenzialmente espressi: tipo di dato, tecniche di analisi, visualizzazione dei risultati
- Applicazione a caso di studio: scaricare i dati, pre-elaborazione, analisi, visualizzazione grafica dei risultati.
Lezioni
Introduzione al corso di Elementi di Bioinformatica
Introduzione alla statistica: statistica descrittiva e inferenziale
Introduzione alla bioinformatica: definizione e applicazioni
Statistica descrittiva: tipi di variabili, rappresentazione grafica e tabellare
Elementi di biologia molecolare: DNA, RNA, Proteine
Statistica descrittiva: Misure di centralità e dispersione
Elementi di biologia molecolare: gene, espressione genica e regolazione dell'espressione genica
Gli indici di posizione: i quantili
Elementi di biologia molecolare: RNA non codificanti proteina
Il range interquartile e la rappresentazione grafica come boxplot
Sequenze biologiche e introduzione alle banche dati biologiche
Distribuzione di Probabilità: La Distribuzione Normale (o Gaussiana)
La banca dati NCBI (National Center for Biotechnology Information): NCBI Gene
Distribuzione di Probabilità: lo z-score
La banca dati NCBI PubMed e NCBI RefSeq
Statistica inferenziale: introduzione ai test di ipotesi
La banca dati The Human Protein Atlas
Statistica inferenziale: procedura test di ipotesi, test per la media e calcolo del p-value
L'allineamento di sequenze e lo strumento BLAST: principi di funzionamento, tipologie di ricerca e interpretazione dei risultati
Statistica inferenziale: Test t-Student (t-test) per campioni appaiati e indipendenti
Il progetto Gene Ontology (GO): classificazione funzionale dei geni. Termini GO e struttura gerarchica
Test del Chi Quadro e ipergeometrico: principi teorici
I pathways biologici e la banca dati KEGG: mappe interattive e analisi dei percorsi biologici
Analisi di arricchimento funzionale e lo strumento EnrichR
Lo strumento Biomart: la conversione di identificativi dei geni, estrazione di caratteristiche e termini GO
Indice di correlazione lineare e sue applicazioni
Dati di espressione genica: la banca dati Gene Expression Omnibus (GEO) e il The Cancer Genome Atlas (TCGA)
Analisi delle componenti principali (PCA)
Le banche dati di interazione microRNA-target
Analisi di clustering gerarchico e applicazioni del clustering ai dati biologici
Analisi di clustering partizionale e applicazioni ai dati biologici
Introduzione al linguaggio R: installazione, interfaccia e ambiente di sviluppo RStudio, vettori
Elementi di programmazione R: matrici, liste e data frame
Elementi di programmazione R: lettura e scrittura, input/output, funzioni
Elementi di programmazione R: strutture e funzioni di controllo
Elementi di programmazione R: elementi grafici di base
Elementi di programmazione R: boxplot, grafici multipli e librerie grafiche
La teoria delle reti in biologica e medicina