Master Praktikum Bioinformatik: An Atlas of Cardiovascular Diseases
An Atlas of Cardio-Vascular Diseases (CVD): AtheroIndex
Daten, Differentielle Analysen, Biomarker und Signaturen
für Herz-Kreislauf-Erkrankungen insbesondere Atherosklerose
Data, Differential Analyses, Biomarker and Signatures
for Cardiovascular Diseases in particular Atherosclerosis
Die Seite befindet sich noch im Aufbau!
Betreuer Course instructors
Allgemeine Informationen General Information
Credits und Arbeitsumfang Credits and work load :
12 ECTS / 10 SWS (10P/Block) = 360 working hours
Zeit (während des Semesters):
Date (during the semester):
Di + Do
Tue + Thu
13-18h: 240-300h
Zeit (Block):
Date (block phase):
1-2 Wochen:
1-2 weeks:
120-60h
Die Praktikumsprojekte werden in Teams von 3-5 Teilnehmern durchgeführt und von Mentoren betreut
Die Laborleistung des Master-Praktikums besteht aus Entwicklung und Implementierung von Methoden,
Datenanalyse mit Standard-Pipelines und neuen Methoden, Präsentation der Ergebnisse in Vortrag(ägen)
und Erstellen eines Manuskripts/Reports
Raum: Hiwi+CIP-Räume
Room: Hiwi+CIP-rooms + 406 Amalienstr. 17
Betreuer: Supervisors:
Thema/Beschreibung/Inhalt Topic/Description/Contents
"Atlanten" sind derzeit in der Bioinformatik wichtige Projekte grösserer Projektkonsortien. Unter einem Atlas versteht man dabei die Zusammenstellung neuer und schon publizierter (Hochdurchsat-)Datensätze verschiedener Typen inklusiver möglichst vollständiger Annotation und Metainformation zu einem bestimmten Thema, z.B. der HLCA [HLCA]. Ein Atlas wird oft von vielen Projektpartnern die Daten produzieren (Biologen/Mediziner) und/oder analysieren (Bioinformatiker) zusammengestellt. Durch die Revolution der Sequenziertechniken sowohl auf genomischer, transcriptomischer und epigenomischer Ebene stehen eine grosse Zahl von (heterogenen) Datensätzen zur Verfügung. Ergänzt wird das noch durch posttranlationale Datensätze (meist Massenspektrometrie basiert). Zu einer Anwendungsfragestellung (z.B. einer Krankheit) oder zu einem Zelltyp oder gewebe/Organ sthen meist zusätzlich zu den humanen Daten auch Daten von Modellorganismen (oft sogar noch mehr) zur Verfügung.
Die Anzahl verschiedener Hochdurchsatztechniken ist inzwischen riesig mit entsprechend vielen Anwendungsmöglichkeiten für die verschiedensten Forschungsfragestellungen. Dementsprechend werden auch geeignete Analysemethoden (sog. Bioinformatik-Pipelines) gebraucht, die es erlauben, die Daten bestmöglich zu analysieren und zu vergleichen. Für die einzelnen Datentypen stehen viele Methoden und auch Pipelines zur Verfügung. Das gilt nicht nur für bulk NGS Daten sondern auch und v.A. für die neuesten Datentypen zur single-cell Messungen und räumlich aufgelöste Daten (fast ebenfalls auf Einzelzellebene).
Ziel des Praktikums ist es, geeignete Datensätze für definierte Fragestellungen zu identifizieren, die Daten mit geeigneten Methoden zu analysieren (diese dabei zu lernen bzw. anwenden zu lernen, ggfs zu erweitern/ergänzen), die Daten und (differentiellen) Ergebnisse zu integrieren, und sie geeignet zu annotieren und zusammen mit den relevanten Metainformationen in den Atlas zu integrieren. Die definition der Fragestellung und die Metainformationen um die Fragestellung bzw. die Ergebnisse dazu für andere Analysen und andere Fragestellungen nutzbar zu machen stehen dabei im Vordergrund. Insbesondere steht auch die Natzbarbeit bzw. Übertragbarkeit von Daten und Ergebnissen von Modellorganismen für den Menschen und menschliche Krankeiten (CVD, Herzinfrakt, Schlaganfall, Atherosklerose) im Fokus. Besonders interessant ist natürlich die Einbindung aktueller single-cell, spatial und multimodal Daten.
Ggfs werden auch eigene Daten zu Kalibrierung der neuen Techniken generiert und eingesetzt.
Zirkulierende, infiltrierende und residente Makrophagen und andere Immunzell-Populationen sind wichtige Zelltypen, die an einer Vielzahl von CVDs beteiligt sind. Immer mehr Datensätze und Analysen von Einzelzell-Makrophagenwerden verfügbar [2].
Im Rahmen des Praktikums werden Sequenzierungs- und insbesondere Einzelzellsequenzierungsdaten (scSeq) zur Durchführung modernster Differentialanalysen und Biomarker-Identifizierungstechniken (SCANPY [3], Seurat [4], Signac [5]) verwendet. Biomarker werden charakterisiert und mit bekannten Biomarkern aus öffentlichen Repositories, z. B. MSigDB [6], verglichen. Es werden Pipelines für die Analyse von scSeq-Daten verwendet und implementiert. Wir werden versuchen, eine Datenbank mit Biomarkern für krankheitsspezifische Subtypen von Makrophagen und weiteren relevanten Zelltypen zusammenzustellen, die als Werkzeug für die Analyse von scSeq-Daten und die Klassifizierung und Subtypisierung von Krankheiten bereitgestellt wird.
Unser Hauptanwendungsgebiet sind Cardio-Vascular Diseases (CVDs) v.a die Atherosklerose.
Dabei interessieren uns auch die Rolle wichtiger Zelltypen in diesen Krankheiten, insbesondere die Rolle von Makrophagen und anderen Immunzellen z.B. in den frühen Phasen der CVD z.B. bei der Entstehung atherosklerotischer Plaques [5-11].
Ziele und Lernziele:
Die Pipeline wird auf verfügbaren hochmodernen Tools für eine effiziente Analyse und komfortable Visualisierung der Ergebnisse unter Verwendung moderner Python und R Programmierumgebungen und -pakete aufbauen. Die Visualisierung erfolgt durch benutzerfreundliche Shiny oder Dash Apps. Die Robustheit und Reproduzierbarkeit der Ergebnisse ist eine wichtige Voraussetzung für alle Implementierungen.
Aims and Learning Goals:
The pipeline will build on available state-of-the-art tools for efficient analysis and comfortable visualization of results using modern python and R programming environments and packages. Visualization will be done by user-friendly Shiny or Dash Apps and Notebooks. Robustness and reproducibility of results is an important requirement for all implementations.
The work will be summarized in presentation and a scientific paper (to be submitted to a journal for peer review)
Voraussetzungen:
Bachelor Bioinformatik, insbesondere erfolgreicher Abschluss des GoBi Praktikums. Gute Programmierkenntnisse (Java, Python, Dash, R, Shiny). Interesse an Datenvisualisierung und komplexen menschlichen Krankheiten.
Prerequisites:
Bachelor Bioinformatics, in particular successful completion of the GoBi practical course. Good programming skills (java and/or python). Interest in data visualization and complex human diseases.
Struktur/Zeitablauf des Praktikums Structure/Schedule
Feb/Mar 2024: Kickoff meeting und Zuordnung der Projekte und Teams
Apr-Jul 2024: ~300h Projekt und Paper Planung, Projektarbeit, Zwischen-Präsentationen und Diskussionen
Jul-Aug-Sep 2024: ~60h Block Phase, Projektarbeit, Schreiben des Papers, Abschlusspräsentation und Einreichen des Papers
Feb/Mar 2024: Kickoff meeting and project assignment
Apr-Jul 2024: 300h project and paper planning, project work, presentations and discussions
Jul-Aug-Sep 2024: 60h block phase, project work, paper writing, final presentation and paper submission
Vorkenntnisse Prerequisites
Grundstudium Bioinformatik (Bachelor oder Diplom) Bachelor Bioinformatics
Programmierpraktikum Bioinformatik Bioinformatics programming course
Praktikum Genomorientierte Bioinformatik Practical Genome-oriented bioinformatics
Gute Programmierkenntnisse (Bachelor Level) Good programming skills (bachelor level)
Interne Webseite Internal web page
Mit Beginn des Praktikums werden alle nötigen Materialien auf einer internen Seite veröffentlicht
At the beginning of the semester all required material will be provided at the internal Webpage
Literatur Literature
[1] Susan Holmes, Wolfgang Huber, Modern Statistics for Modern Biology,Cambridge University Press, 2019.
[2] Cheng S, Li Z, Gao R, Xing B, et al (2021). A pan-cancer single-cell transcriptional atlas of tumor infiltrating myeloid cells. Cell, 184(3), 792-809.e23. PMID: 33545035.
[3] Wolf FA, Angerer P, Theis FJ. SCANPY: large-scale single-cell gene expression data analysis. Genome Biol. 2018 Feb 6;19(1):15. doi: 10.1186/s13059-017-1382-0. PMID: 29409532; PMCID: PMC5802054.
[4] Hao Y, Hao S, Andersen-Nissen E, Mauck WM 3rd, Zheng S, Butler A, Lee MJ, Wilk AJ, Darby C, Zager M, Hoffman P, Stoeckius M, Papalexi E, Mimitou EP, Jain J, Srivastava A, Stuart T, Fleming LM, Yeung B, Rogers AJ, McElrath JM, Blish CA, Gottardo R, Smibert P, Satija R. Integrated analysis of multimodal single-cell data. Cell. 2021 Jun 24;184(13):3573-3587.e29. doi: 10.1016/j.cell.2021.04.048. Epub 2021 May 31. PMID: 34062119; PMCID: PMC8238499.
[5] Stuart T, Srivastava A, Madad S, Lareau CA, Satija R. Single-cell chromatin state analysis with Signac. Nat Methods. 2021 Nov;18(11):1333-1341. doi: 10.1038/s41592-021-01282-5. Epub 2021 Nov 1. PMID: 34725479.
[6] Liberzon A, Birger C, Thorvaldsdóttir H, Ghandi M, Mesirov JP, Tamayo P. The Molecular Signatures Database (MSigDB) hallmark gene set collection. Cell Syst. 2015 Dec 23;1(6):417-425. doi: 10.1016/j.cels.2015.12.004. PMID: 26771021; PMCID: PMC4707969.
[7] Deng H, Sun Y, Zeng W, Li H, Guo M, Yang L, Lu B, Yu B, Fan G, Gao Q, Jiang X. New Classification of Macrophages in Plaques: a Revolution. Curr Atheroscler Rep. 2020 Jun 18;22(8):31. doi: 10.1007/s11883-020-00850-y. PMID: 32556603.
[8] Cochain C, Vafadarnejad E, Arampatzi P, Pelisek J, Winkels H, Ley K, Wolf D, Saliba AE, Zernecke A. Single-Cell RNA-Seq Reveals the Transcriptional Landscape and Heterogeneity of Aortic Macrophages in Murine Atherosclerosis. Circ Res. 2018 Jun 8;122(12):1661-1674. doi: 10.1161/CIRCRESAHA.117.312509. Epub 2018 Mar 15. PMID: 29545365.
[9] Li X, He X, Wang J, Wang D, Cong P, Zhu A, Chen W. The Regulation of Exosome-Derived miRNA on Heterogeneity of Macrophages in Atherosclerotic Plaques. Front Immunol. 2020 Sep 10;11:2175. doi: 10.3389/fimmu.2020.02175. PMID: 33013913; PMCID: PMC7511579.
[10] Willemsen L, de Winther MP. Macrophage subsets in atherosclerosis as defined by single-cell technologies. J Pathol. 2020 Apr;250(5):705-714. doi: 10.1002/path.5392. Epub 2020 Mar 11. PMID: 32003464; PMCID: PMC7217201.
[11] Zhong R, Chen D, Cao S, Li J, Han B, Zhong H. Immune cell infiltration features and related marker genes in lung cancer based on single-cell RNA-seq. Clin Transl Oncol. 2021 Feb;23(2):405-417. doi: 10.1007/s12094-020-02435-2. Epub 2020 Jul 12. PMID: 32656582.
[HLCA] Sikkema, L., Ramírez-Suástegui, C., Strobl, D.C. et al. An integrated cell atlas of the lung in health and disease. Nat Med 29, 1563–1577 (2023). https://doi.org/10.1038/s41591-023-02327-2
Jeff Sutherland, SCRUM The Art of Doing Twice the Work in Half the Time, Random House, 2015
Scott Morgan & Barrett Whitener, Speaking about Science - A Manual for Creating Clear Presentations, Cambridge University Press, 2006