Welche statistischen Prozesse und Methoden verwenden Genetiker / Molekularbiologen, um zu wissen, wo ein Gen beginnt und wo endet?
Welche statistischen Prozesse und Methoden verwenden Genetiker / Molekularbiologen, um zu wissen, wo ein Gen beginnt und wo endet?
Ich kenne nur einen naiven Ansatz zur Bestimmung der Grenzen eines Gens: RACE-PCR. Es gibt zwei Arten, 3 'und 5' RACE, mit denen die jeweiligen Extremitäten gefunden werden können.
Die Begründung lautet wie folgt:
Sie führen eine Umkehrung durch Transkription des interessierenden Transkripts unter Verwendung eines spezifischen Primers. In diesem Schritt haben Sie eine spezifische einzelsträngige cDNA.
Dann fügen Sie in 5 'der cDNA einen Abschnitt identischer Nukleotide hinzu, der als homopolymerer Schwanz bezeichnet wird.
Schließlich führen Sie eine PCR mit einem spezifischen Primer und einem Universalprimer durch, die den homopolymeren Schwanz erkennen. Sie können Ihre amplifizierte cDNA mit einer Auflösung von 1 bp sequenzieren und herausfinden, wo sie sich im Genom befindet.
Für das 3'RACE ist das Konzept dasselbe, aber der Poly-A-Schwanz wird verwendet, anstatt ihn selbst mit der terminalen Transferase zu erzeugen.
In diesem Dokument finden Sie ein detailliertes Protokoll:
Außerdem enthält der entsprechende Wikipedia-Artikel weitere Details zu den einzelnen Schritten. Beachten Sie jedoch, dass ein Fehler vorliegt: sagte, dass für das 5'-Rennen die terminale Transferase den homopolymeren Schwanz in 3 'anfügt, während sie ihn in 5'
anfügtEs gibt verschiedene Software, in die Sie Ihre Sequenz eingeben können (sagen wir die gesamte Genomsequenz) und die für Sie die mutmaßlichen offenen Leserahmen (ORFs) identifizieren können, d. h. die Startcodons und die Stoppcodons. Mithilfe dieser mutmaßlichen Gene können Sie dann mithilfe von BLAST ein Sequenz-Alignment durchführen und anhand der Ergebnisse bestätigen, dass es sich tatsächlich um ORFs handelt. Da dies der statistische Ansatz ist, können Sie Ihre Ergebnisse im Nasslabor überprüfen, wie von agrimaldi vorgeschlagen.
Wenn Ihr Ziel darin besteht, die Grenzen der Transkriptionseinheit (des Teils der transkribierten DNA) zu definieren, ist die obige Antwort korrekt, obwohl viele Menschen lediglich Homologie für klonierte cDNAs anstelle von RACE-Reaktionen verwenden. Dieser Ansatz hat den Vorteil, dass alternative Spleißformen gleichzeitig definiert werden.
Wenn Ihr Ziel darin besteht, die "Enden" des Gens zu definieren, kann dies nur empirisch und funktional erfolgen, da Kontrollelemente (Grenzen, Enhancer usw.) sind mit Hilfe der Informatik nicht zu erkennen, und selbst wenn man Enhancer findet, ist es nicht sicher, ob diese Enhancer mit bestimmten Genen verwendet werden. Einige Gene können Millionen Basenpaare lang sein, sodass Hunderte anderer Gene eingestreut sind. Der "Goldstandard" zur Definition der Grenzen von Genen besteht darin, den Funktionsverlust-Phänotyp einer Mutation mit einem Transgen zu retten, das das interessierende Gen enthält. Wenn die DNA, die zurück in einen Organismus transformiert wird, den Wildtyp-Zustand einer Mutation eines Gens wiederherstellen kann, wird angenommen, dass sich alle wichtigen Teile dieses Gens innerhalb des Transgens befinden
Im Allgemeinen sequenzieren Sie das Genom und suchen dann nach Hinweisen. Es gibt normalerweise spezifische Sequenzen vor einem Gen, die dem Translationsgerät helfen, "Hallo, hier fangen wir an" zu erkennen, sowie Regionen, in denen Proteine binden können, die zur Verbesserung oder Hemmung der Translation des Gens verwendet werden.
Computer kann so programmiert werden, dass die Sequenz durchsucht und mögliche Kandidaten für eine genauere Betrachtung angezeigt werden.