Sie sind hier
Statistisches Lernen in der Bioinformatik
Dr. Nico Pfeifer
|
Neue Fortschritte im Bereich der Hochdurchsatzverfahren haben zu einem exponentiellen Anstieg an biologischen Daten geführt (z.B. Genom-, Proteom- und Epigenomdaten). Effiziente Verfahren des statistischen Lernens sind notwendig, um aus solchen großen Datenmengen echte Zusammenhänge zu extrahieren. Im Januar 2013 wurde die Nachwuchsgruppe “Statistisches Lernen in der Bioinformatik” in der Abteilung für Bioinformatik und angewandte Algorithmik des MPIs für Informatik eingerichtet. Der Fokus der Gruppe liegt darauf, neue Verfahren des statistischen Lernens und des maschinellen Lernens anzuwenden und weiterzuentwickeln um Probleme in der Bioinformatik zu lösen und neue biologische Fragen zu beantworten. Hierbei liegt der Fokus auf epigenetischen, immunsystemspezifischen und genomischen Daten.
Anwendungsgebiete sind zu finden in der Analyse von Viren wie HIV, Hepatitis C und Influenza sowie im Bereich der Epigenetik. Methodisch ist der Fokus der Gruppe auf
- Integration heterogener Daten
- Verbesserung der Interpretierbarkeit nicht-linearer Lernverfahren
- Effiziente Lernverfahren für große Datenmengen
Unsere Projekte
|
Aufgrund von ca. 2 Millionen neuen HIV-Infektionen pro Jahr und ca. 35 Millionen HIV-Infizierten Menschen weltweit ist die Bekämpfung des HI-Virus immer noch eine der wichtigsten Aufgaben unserer Gesellschaft. Zwei Forschungsbereiche sind hier besonders hervorzuheben:
• Die Suche nach einem Impfstoff gegen HIV
• Personalisierte HIV-Therapie
Wir verfolgen Forschungsprojekte in beiden Bereichen. Beispiele hierfür sind: Modellierung der Adaptation von HIV aufgrund von Immunsystemdruck, die Entwicklung von besseren und besser interpretierbaren Vorhersagemethoden zur HIV Korezeptornutzung und CCR5 Antagonisten-Resistenz sowie die Analyse von potenten breit HIV-1-neutralisierenden Antikörpern.
Wir arbeiten auch an der Entwicklung von Methoden, die besser mit verrauschten Daten umgehen können. Ein Anwendungsgebiet hierfür ist die Analyse molekularbiologischer Messungen von Krebsgewebe. Hier gibt es viele Faktoren, die die Messungen beeinflussen können (z.B. Batch-Effekte). Wenn auf diesen Daten Vorhersagemethoden gebaut werden mit dem Hintergedanken, dass neue Daten sehr ähnlich aussehen werden, so sind Standardansätze verwendbar. Leider ist diese Annahme in der Praxis aber selten erfüllt. Deswegen haben wir eine Methode entwickelt, die diese Unterschiede schätzen und die resultierenden Informationen in die Vorhersagemethode integrieren kann. Zudem liefert diese Methode auch sehr interpretierbare Ergebnisse, die dazu dienen können um die Ursachen für die jeweiligen Vorhersagelabels zu erkunden. Weitere Projekte werden zeigen, wie weit man Methoden in diesem Bereich ausbauen kann.
Ein anderer wichtiger Bereich ist die bestmögliche Integration verschiedener Datentypen (z.B. Genexpression, DNA Methylierung, Copy Number Variation).
Außerdem entwickeln wir mit großem Interesse Methoden zur Analyse von „Open Chromatin“-Regionen sowie der dreidimensionalen Organisation von Chromosomen.