Vilka statistiska processer och metoder används av genetiker / molekylärbiologer för att veta var en gen börjar och en slutar?
Vilka statistiska processer och metoder används av genetiker / molekylärbiologer för att veta var en gen börjar och en slutar?
Jag känner bara till ett naivt tillvägagångssätt för att bestämma gränserna för en gen: RACE-PCR. Det finns två typer, 3 'och 5' RACE, som gör det möjligt att hitta respektive extremiteter.
Motivet är följande:
Du utför en omvänd transkription av transkriptet av intresse med användning av en specifik primer. Vid detta steg har du ett specifikt enkelsträngat cDNA.
Sedan lägger du till en sträcka av identiska nukleotider som kallas homopolymeric tail i 5 'av cDNA.
Slutligen utför du en PCR med en specifik primer och en universal primer som känner igen den homopolymeriska svansen. Du kan sekvensera ditt förstärkta cDNA och hitta var det ligger i genomet med en 1 bp upplösning.
För 3'RACE är konceptet detsamma men poly-A-svansen används istället för att generera det själv med terminalöverföringen.
Se det här dokumentet för ett detaljerat protokoll:
Sambrook J, Russell DW . 2006. Snabb förstärkning av 5'-cDNA-ändar (5'-RACE). CSH-protokoll 2006.
Dessutom ger motsvarande wikipedia-artikel mer information om vad som händer i varje steg, men se upp, det finns ett fel: det är sa att för 5'RACE, ansluter terminalöverföringen den homopolymeriska svansen i 3 'medan den lägger till den i 5'
Det finns olika program där du kan ange din sekvens (låt oss säga hela genomssekvensen) och den kan identifiera de förmodade öppna läsramarna (ORF), dvs startkodonerna och stoppkodonerna. Genom att använda dessa förmodade gener kan du sedan göra en sekvensinriktning genom att använda BLAST och sedan, baserat på poängen, kan du bekräfta att de verkligen är ORF. Eftersom detta är det statistiska tillvägagångssättet kan du sedan verifiera dina resultat i det våta laboratoriet, som Agrimaldi föreslog.
Om ditt mål är att definiera gränserna för transkriptionsenheten (den del av DNA som transkriberas) är svaret ovan korrekt, även om många bara använder homologi för att klonade cDNA snarare än RACE-reaktioner. Detta tillvägagångssätt har fördelen att definiera alternativa skarvsformer samtidigt.
Om ditt mål är att definiera "ändarna" på genen kan det bara göras empiriskt och funktionellt eftersom kontrollelement (gränser, förstärkare, etc) är omöjliga att känna igen med hjälp av informatik, och även om man hittar förstärkare är det inte säkert att dessa förstärkare används med specifika gener. Vissa gener kan vara miljoner av baspar långa, så har hundratals andra gener blivit isär. "Guldstandarden" för att definiera gränserna för gener är att rädda fenotypens funktionsförlust av en mutation med en transgen som innehåller genen av intresse. Om DNA som transformeras tillbaka till en organism kan återhämta vildtypstillståndet för en mutation av en gen, antas det att alla viktiga delar av den genen finns i transgenen.
Generellt sett sekvenserar du genomet och söker sedan efter ledtrådar. Det finns vanligtvis specifika sekvenser före en gen som hjälper translationell utrustning att veta "hej det är här vi börjar" samt regioner där proteiner kan bindas som används för att förbättra eller hämma translationen av genen. kan programmeras för att söka igenom sekvensen och ta upp möjliga kandidater för människor att titta närmare på.