測序后更重要的是解讀這些序列,分析這些序列都起到了什么作用。對于人類外其他物種基因組的分析可以給予我們更多的線索。
基因:基因組中的功能原件。
用開放閱讀框ORF來找到編碼蛋白的基因
開放閱讀框:由密碼子組成的核酸序列,其中不含中止密碼子(TAA/TAG/TGA)。
但由于基因組很大,也會有足夠長但并非是基因的ORF,也會由于內(nèi)含子隔開外顯子的原因使得外顯子區(qū)域是短的序列,導(dǎo)致錯過。但可以根據(jù)外顯子和內(nèi)含子連接處的特點進行甄別。
用全基因組序列比對,找出不同物種間的相似區(qū)域,盡管不一定是基因,但預(yù)示著自然選擇的進化關(guān)系。
找DNA的保守序列
同源DNA片段(homologue):兩個物種的DNA片段來源于共同祖先的同一個DNA片段。如果序列并非完全相同,就需要運用適當(dāng)?shù)乃惴▉碜C明同源性,這就屬于生物信息學(xué)的研究內(nèi)容。當(dāng)這段相似的序列在許多不同物種中出現(xiàn),就稱其保守(conserved)。
不同物種DNA序列保守性
具有功能的序列會明顯影響表型,因此不易積累突變,導(dǎo)致該進化慢,而非功能序列就并非如此,因此通過分析保守性,可以區(qū)分出功能性和非功能性的DNA序列。
直接定位轉(zhuǎn)錄區(qū),是在基因組中更直接找到基因的方法。
可以通過分析轉(zhuǎn)錄出的RNA序列來得到對應(yīng)的DNA序列,rRNA較易分析,但是由于含量低(mRNA僅占細(xì)胞總RNA的1-5%,其他都是rRNA和tRNA),直接分析mRNA就很難,需要先將其轉(zhuǎn)化為DNA,再用更成熟的DNA分析方法來測序。這種從mRNA得到DNA的靈感是源自反轉(zhuǎn)錄病毒(如HIV)通過反轉(zhuǎn)錄酶的作用得到cDNA。
cDNA,現(xiàn)指以RNA為模板獲得的單鏈或雙鏈DNA。
建立cDNA文庫
對比全基因組文庫和cDNA文庫
通過比對cDNA序列和全基因組序列,就可以對全基因組的基因位置,外顯子,內(nèi)含子進行注釋了。
cDNA和可變剪切
可變剪切指一個原始的轉(zhuǎn)錄本,可以有多種剪切方式,最終導(dǎo)致一個基因可以產(chǎn)生多種不同的蛋白質(zhì)。
基因在不同物種基因組中的排列并非一致
人類基因組中僅發(fā)現(xiàn)了27000個基因,大約19000個基因是編碼蛋白的,其余的用于轉(zhuǎn)錄為rRNA和tRNA,還有剪切體中的snRNA。
與低等生物比,這個基因數(shù)目比預(yù)期小很多,因此,基因的機制而非數(shù)目才是早就多細(xì)胞動物復(fù)雜性的本質(zhì)。
在進化過程中,基因組長度的變化比起基因數(shù)目的變化要明顯的多,這是由于外顯子組只占有全基因組的1.5-2%,而其余的絕大多數(shù)序列都是內(nèi)含子、基因間序列、轉(zhuǎn)座子、和染色體結(jié)構(gòu)區(qū)如著絲粒和端粒。
物種間絕大多數(shù)的基因組差異,都是發(fā)生在非編碼區(qū)的擴展和壓縮,而非基因數(shù)目的變化。例如,超過半數(shù)的人類基因組是轉(zhuǎn)座子的構(gòu)成部分,而轉(zhuǎn)座子被視為一種寄生DNA,利用我們?nèi)祟惖幕蚪M進行自我繁殖。另外,人類基因組中也含有大量的簡單重復(fù)序列(CGCGCGCGCG)
大多數(shù)基因的轉(zhuǎn)錄方向是隨機的。
相鄰的基因可以同向也可逆向,即可朝向染色體的端粒也可朝向著絲粒。有時RNA聚合酶用DNA正義鏈轉(zhuǎn)錄,有時用反義鏈。只對少數(shù)基因如血紅素基因,其轉(zhuǎn)錄都是同向的。
基因密度變化不定
人類中,平均大約100kb就有一個基因,人類中基因密度最高的地方是6號染色體,在700kb的區(qū)域含有60個基因,編碼不同功能的組織相容性蛋白。
與之相對的就是基因沙漠區(qū)域,幾乎不含有基因。人類基因組中最大的基因沙漠區(qū)就是5號染色體的一段5.1Mb區(qū)域,其上沒有一個基因。
還有一些稱之為大基因,轉(zhuǎn)錄本一般超過500kb,人類中最大的基因是抗肌萎縮蛋白基因dystrophin,超過2.3 Mb,其含有很長的內(nèi)含子。大基因的轉(zhuǎn)錄本一般在快速分裂的細(xì)胞中來不及完成,因此大基因基本存在于不分離的細(xì)胞中,如神經(jīng)元。
進化過程中的基因組改變
外顯子常常編碼互不相連的蛋白結(jié)構(gòu)域,作為一個獨立功能單元。與由不同功能車廂組成的火車相似,許多基因也是由許多編碼不同蛋白結(jié)構(gòu)域的外顯子組成,在進化過程中,這些外顯子的轉(zhuǎn)移、增加或者刪除都會導(dǎo)致一個新的蛋白結(jié)構(gòu)域產(chǎn)生,從而產(chǎn)生新的作用。
基因家族
基因家族是指具有相似序列和功能的一類基因,這類基因在整個基因組中是很多的。例如血紅蛋白基因家族,免疫球蛋白(抗體)基因家族,嗅覺受體基因家族。這些基因可能會聚集在一條染色體上,也可能彌散在多條染色體。
通過生信分析,基因家族的基因們是來自一個祖基因,在進化過程中,由基因復(fù)制和各自突變形成的。
直系同源基因Orthologous gene:不同物種的基因,但來源于同一個祖先基因。一般保有同樣的功能。
旁系同源基因Paralogous gene:由基因復(fù)制產(chǎn)生,通常用來描述同一個家族中的基因數(shù)目。
同源性homology:是一個統(tǒng)稱,具有進化相關(guān)性的所有相似序列都具有同源性。
假基因pseudogene:序列類似基因,但無作用的序列。許多高等動物基因家族中都有。
新基因(de novo genes)
沒有同源基因的稱為新基因,例如人類基因組中就有數(shù)百個人類特有的基因。通常新基因都是年輕的基因,由祖先基因間的序列進化而來,有兩種生發(fā)機制,一是獲得ATG啟動子,二是原來的基因間ORF具有了轉(zhuǎn)錄調(diào)節(jié)序列。正因如此,通常新基因更小也更簡單。
染色體重排
在人類和老鼠的基因組中,不僅單個基因序列有很高的相似性,基因在染色體上的順序也有極高相似度。這些在染色體上高相似度的區(qū)塊稱為同線區(qū)塊(syntenic blocks), 人類和老鼠比對后,大約有180個這樣的區(qū)塊,其中的基因順序高度相似,但是這些區(qū)塊在染色體上的位置在兩個物種間是絕然不同的。這就好比將人類的基因組隨機切成180份,然后再隨機排列組合,就成了老鼠的基因組。
這種染色體的切割再組裝是伴隨著物種進化過程的,稱為染色體重組(chromosomal rearrangements)。一類稱為易位(translocation)是將一段染色體連接到非同源染色體上,另一類稱為反轉(zhuǎn)(inversions)是將染色體一段旋轉(zhuǎn)180度再連接起來。物種間的進化關(guān)系越遠(yuǎn),同線性區(qū)塊就越少。
僅少數(shù)基因可以對表型有明顯影響
盡管人類的基因數(shù)量只有27000個,蛋白的類型卻遠(yuǎn)遠(yuǎn)超出。導(dǎo)致這個現(xiàn)象的原因就是組合擴增,即不同水平的DNA序列和RNA序列的組合可以產(chǎn)生很多中可能性。另外,蛋白質(zhì)還會發(fā)生翻譯后的修飾,也會導(dǎo)致種類的增多。
DNA層面的組合策略
RNA層面的組合策略
一種是可變剪接,另一種是采用同一個基因的不同啟動子來轉(zhuǎn)錄。
蛋白翻譯后修飾
人類蛋白可以被超過400種化學(xué)反應(yīng)修飾來改變其功能,例如蛋白質(zhì)剪切和磷酸化。因此,一個人類的細(xì)胞一般含有50000個不同的mRNA,但是會有大概一百萬個不同的蛋白質(zhì)。
用二進制數(shù)值00,01,10,11分別代表ACGT,用計算機來儲存和處理遺傳信息。
1982年,NIH(national institutes of health),建立了GenBank,到目前為止仍然是使用最多的在線序列數(shù)據(jù)庫。到2016年,已經(jīng)包含300,000,000,000的注釋完成的核酸序列。人們只要能夠上網(wǎng),就能獲取這些數(shù)據(jù)。
生物信息學(xué)使基因組可視化,并提供了分析的工具。
物種的參考序列(Refseq)
Refseq:是一個物種唯一的,完全的,帶有注釋的基因組。它由NCBI來保持。該基因組不必來源于單一個體,也不需要含有該物種的多個成員的遺傳變體,但具有強制性,并且是被很好的識別出來的一個范例,這樣才能使該物種中新檢測出的序列可以與之比對。
NCBI,建于1988年,監(jiān)管GenBank和其他生物信息數(shù)據(jù)庫,并開發(fā)相應(yīng)的生信工具來分析和傳播這些信息。
使基因和基因組可視化
UCSC Genome Browser (UCSC Genome Browser Home) 使RefSeq可視化,展示其注釋,外顯子,內(nèi)含子,編碼蛋白區(qū)域等特征。
用BLAST尋找同源序列
BLAST (Basic Local Alignment Search Tool),使NCBI開發(fā)的一個程序
聯(lián)系客服