Expressionsdaten aus Sequenzierungsexperimenten sind in großem Umfang für viele Arten, Gewebe, Zellen und Bedingungen verfügbar. Die Differentielle Genexpressions-Analyse (DGEA) ist ein wichtiges Werkzeug [1], um die Funktionen von Genen und Signalwegen zu verstehen. Dazu muss die bioinformatische Datenanalyse in großem Maßstab genau und effizient durchgeführt werden. Die Ergebnisse vieler DGEA-Analysen müssen kombiniert, verglichen und visualisiert werden.
Sequencing based expression data is available on a large scale for many species, tissues, cells and conditions. Differential gene expression analysis (DGEA) is a major analysis tool [1] to understand functions of genes and pathways. Thus, DGEA has to be performed accurately and efficiently on a large scale. Results of many DGEA analysis need to be combined, compared and visualized.
Die wichtigsten Ressourcen für die DGEA sind Expressionsdaten aus öffentlichen Quellen wie recount3 [2] und Rohsequenzierungsdaten aus Kompendien wie SRA, GTEx, ENCODE3 oder TCGA [3-8]. Genstrukturen werden für eine isoforme Zuordnung von Sequenzierdaten zu Gen-Modellen benötigt. Die Isoform Structure Alignment Representation (ISAR) liefert alignierte Transkript-Isoformen von Genen aus einer Reihe von Arten. EmpiReS ist eine allgemeine Methode zur Identifizierung sowohl von DE-Genen als auch von Differential Alternative Splicing (DAS) auf der Grundlage der ISAR-Genmodelle. Der evolutionäre Isoform-Browser (eiBrow) wird verwendet, um identifizierte DE- und DAS-Ereignisse zu visualisieren, einschließlich Abdeckung, Faltungsänderung und Kreuzungslesedaten sowie Bindungs- und Spleiß-Donor- und -Akzeptorstellen. Unterschiede und Übereinstimmungen zwischen konkurrierenden Methoden werden analysiert und systematisch betrachtet.
Major resources for the DGEA are expression data from public resources such as recount3 [2] and raw sequencing data from compendia such as SRA, GTEx, ENCODE3 or TCGA [3-8]. Gene structures are needed for a isoform-aware mapping of sequencing reads to gene models. The Isoform Structure Alignment Representation (ISAR) provides aligned transcript isoforms of genes across a number of species. EmpiReS is a general method to identify both DE gens as well as Differential Alternative Splicing (DAS) based on the ISAR gene models. The evolutionary isoform Browser (eiBrow) will be used to visualize identified DE and DAS events including coverage, fold change and junction read data as well as binding as well as splice donor and acceptor sites. Differences and consensus between competitive methods will be analysed and considered systematically.
Im Rahmen des Praktikums wird eine Pipeline für die flexible Analyse von Krankheits-Expressionsdaten entwickelt, um die differentielle Expression und das differentielle alternative Spleißen für verschiedene Krankheiten zu identifizieren, zu validieren und zu visualisieren, z. B. Krebs, Atherosklerose und COVID-19 [9]. Ziel der Pipeline ist es, einen Vergleich von projektspezifischen Sequenzierungsdaten mit der Fülle von Expressionsdaten in öffentlichen Repositories zu ermöglichen.
The practical course will build a pipeline for a flexible analysis of disease expression data to identify, validate and visualize differential expression and differential alternative splicing for various diseases, e.g. cancer, atherosclerosis, and COVID-19 [9]. The goal of the pipeline is to allow a comparison of project-specific sequencing data with the wealth of expression data in public repositories.
Ziele und Lernziele:
Die Pipeline wird auf verfügbaren hochmodernen Tools für eine effiziente Analyse und komfortable Visualisierung der Ergebnisse unter Verwendung moderner Python und R Programmierumgebungen und -pakete aufbauen. Die Visualisierung erfolgt durch benutzerfreundliche Shiny oder Dash Apps. Die Robustheit und Reproduzierbarkeit der Ergebnisse ist eine wichtige Voraussetzung für alle Implementierungen.
Aims and Learning Goals:
The pipeline will build on available state-of-the-art tools for efficient analysis and comfortable visualization of results using modern python and R programming environments and packages. Visualization will be done by user-friendly Shiny or Dash Apps. Robustness and reproducibility of results is an important requirement for all implementations.
The work will be summarized in presentation and a scientific paper (to be submitted to a journal for peer review)
Voraussetzungen:
Bachelor Bioinformatik, insbesondere erfolgreicher Abschluss des GoBi-Moduls. Gute Programmierkenntnisse (Java, Python, Dash, R, Shiny). Interesse an Datenvisualisierung und komplexen menschlichen Krankheiten. Kenntnisse in Bildverarbeitung und -analyse sind von Vorteil (können auch im Praktikum erlernt werden).
Prerequisites:
Bachelor Bioinformatics, in particular successful completion of the GoBi module. Good programming skills (java and/or python). Interest in data visualization and complex human diseases. Knowledge on image processing and analysis is advantageous (can also be learned during the practical).