Sie sind hier
Sequenzierung des Genoms
![]() Das Bild zeigt symbolhaft den Sequenzierungsprozess für ein DNA-Molekül (Chromosom). Zu Beginn ist die Zeichenfolge der Bruchstücke noch unbekannt. Die grünen Linien stehen für die im Laufe des Prozesses gelesenen Teilstücke. Am Ende ist die gesamte Sequenz bekannt. |
Das menschliche Genom besteht aus 46 langen DNA-Molekülen (Chromosomen), die im Zellkern enthalten sind. Die Chromosomen enthalten die Erbinformation.
Jedes Chromosom besteht aus einem DNA-Doppelstrang: Zwei Einzelstränge winden sich in Form einer Doppelhelix umeinander. Jeder DNA-Einzelstrang besteht aus einer Abfolge von Bausteinen (Nukleotiden), die durch die jeweils enthaltene Base charakterisiert sind.
Es gibt insgesamt vier verschiedene Bausteine, die mit den vier Buchstaben A, C, G und T bezeichnet werden. Je zwei Nukleotide (A+T, G+C) sind komplementär, das heißt sie binden aneinander. Auf diese Weise bildet sich der Doppelstrang. Von den beiden Einzelsträngen wird daher nur einer benötigt, da der jeweils andere aufgrund der Basenkomplementarität eindeutig definiert ist. Das menschliche Genom kann daher als lange Zeichenkette bestehend aus den vier Buchstaben A, T, G und C dargestellt werden.
Ziel der Sequenzierung ist es, die Erbinformation, die in den Chromosomen enthalten ist, in Form einer langen Textzeile zu erhalten.
![]() |
|
Die verwendeten Sequenziermaschinen sind jedoch nicht in der Lage, das gesamte Genom in einem Schritt zu lesen. Aus diesem Grund muss das Genom in kleine Stücke zerteilt werden, deren Buchstabenfolge gelesen werden kann. Um diese Einzelteile später wieder zusammensetzen zu können, müssen die einzelnen Bruchstücke überlappen.
Dies kann man dadurch erreichen, indem man viele Kopien eines DNA-Einzelstranges erzeugt und jede Kopie zufällig zerstückelt (zum Beispiel mit Ultraschall, hoher Druck). Die vielen Einzelabschnitte werden anschließend von Maschinen gelesen.
Die Gesamtabfolge der Bausteine wird mit Hilfe der Überlappungsinformationen gewonnen: Schrittweise werden Einzelstücke gesucht, deren Enden überlappen.
Diese überlappenden Abschnitte werden in der entsprechenden Reihenfolge zusammengefügt. Diesen Vorgang nennt man Assemblierung.
Algorithmen zur Assemblierung müssen sehr effizient sein, da die Zahl der Bruchstücke und damit die Zahl der paarweisen Vergleiche auf mögliche Überlappungen sehr hoch ist. Zudem müssen die Verfahren mit Problemen wie z.B. mehrfach im Genom auftretenden Teilsequenzen oder Lesefehlern bei den Bruchstücken fertig werden können.