lncRNA的生物學(xué)功能【1】
目前人們對(duì)lncRNA認(rèn)識(shí)還處在初級(jí)階段,lncRNA起初被認(rèn)為是基因組轉(zhuǎn)錄的“噪音”,是RNA聚合酶II轉(zhuǎn)錄的副產(chǎn)物,不具有生物學(xué)功能。然而大量研究表明,lncRNA在細(xì)胞核內(nèi)、核外,通過(guò)染色質(zhì)修飾,轉(zhuǎn)錄調(diào)控,轉(zhuǎn)錄后調(diào)控等多種方式調(diào)節(jié)基因表達(dá),在腫瘤發(fā)生發(fā)展中具有重要作用。
lncRNA在腫瘤中的作用機(jī)制【2】
腫瘤中部分已知lncRNA【3】
lncRNA功能研究的基本思路
一般來(lái)說(shuō),lncRNA功能研究的主線包含3個(gè)主要步驟:
(1)高通量篩選。全轉(zhuǎn)錄組測(cè)序和lncRNA芯片是目前最常用的技術(shù)手段,通過(guò)這種高通量的篩選方法,可以快速獲得不同實(shí)驗(yàn)組間差異表達(dá)的lncRNA和mRNA。
(2)候選lncRNA的確定。通過(guò)生物信息學(xué)分析,從大量lncRNA 中篩選有潛在功能意義的lncRNA。
(3)目標(biāo)lncRNA的功能分析與驗(yàn)證。根據(jù)上述生物信息分析推斷出lncRNA可能的生物學(xué)功能,并設(shè)計(jì)相應(yīng)的實(shí)驗(yàn)來(lái)驗(yàn)證假設(shè)是否成立。
lncRNA研究的基本流程
生物信息學(xué)——確定候選lncRNA
1
lncRNA和mRNA的差異表達(dá)分析
通常所說(shuō)的lncRNA測(cè)序其實(shí)就是全轉(zhuǎn)錄組測(cè)序,與普通mRNA測(cè)序不同的是,lncRNA測(cè)序是通過(guò)rRNA去除從而對(duì)含有polyA結(jié)構(gòu)和不含polyA的RNA一同富集并建庫(kù)測(cè)序。理論上這種策略能夠鑒定到更多的lncRNA,并且能夠與mRNA同時(shí)進(jìn)行分析,更有利于推測(cè)lncRNA可能的調(diào)控途徑。同樣的,lncRNA芯片也同時(shí)包含mRNA和lncRNA的探針,以上這些優(yōu)勢(shì)使得lncRNA測(cè)序和芯片技術(shù)成為了目前最主流的高通量篩選手段。
lncRNA歷年文獻(xiàn)發(fā)表情況【3】
2
確定候選的lncRNA
因?yàn)槟壳耙阎膌ncRNA數(shù)量非常龐大,加上轉(zhuǎn)錄組測(cè)序鑒定出來(lái)的新lncRNA,一次實(shí)驗(yàn)往往能夠獲得非常大量的差異表達(dá)lncRNA,因此除了通過(guò)統(tǒng)計(jì)學(xué)的篩選(比如fold-change和p-value),必須利用各種生物信息學(xué)方法進(jìn)一步推測(cè)這些差異表達(dá)lncRNA的功能,確定與腫瘤發(fā)生發(fā)展關(guān)系密切的lncRNA做為候選。主要的方法有以下一些:
(1)根據(jù)lncRNA在基因組上的位置進(jìn)行篩選
根據(jù)lncRNA在基因組上與附近mRNA的位置關(guān)系, lncRNA可以分為以下五種類(lèi)型:
lncRNA的類(lèi)別示意圖【4】
(2)根據(jù)lncRNA的靶基因進(jìn)行篩選
雖然目前數(shù)據(jù)庫(kù)中收錄了數(shù)量龐大的lncRNA序列,但絕大部分僅僅是序列而已,但是基因組中的3萬(wàn)多個(gè)基因的功能卻是相對(duì)比較清楚的,因此我們可以首先通過(guò)預(yù)測(cè)lncRNA與mRNA之間可能的靶向調(diào)控關(guān)系,進(jìn)而根據(jù)mRNA的功能反過(guò)來(lái)推測(cè)lncRNA的功能。
cis靶基因:lncRNA的順式作用靶基因主要是基于其對(duì)于基因組位置上下游基因的影響來(lái)進(jìn)行預(yù)測(cè)。利用已有的基因組注釋文件,對(duì)lncRNA上下游10kb區(qū)域內(nèi)進(jìn)行尋找,所有關(guān)聯(lián)到的基因均可作為lncRNA的cis靶基因。
trans靶基因:lncRNA的反式作用靶基因主要是基于序列互補(bǔ)進(jìn)行的。其認(rèn)為lncRNA序列和對(duì)應(yīng)的靶基因序列互補(bǔ),可以將其他因子攜帶到靶基因上進(jìn)行調(diào)控。使用軟件為blast和RNAplex,blast進(jìn)行序列互補(bǔ)計(jì)算,RNAplex進(jìn)行熱力學(xué)上的互補(bǔ)計(jì)算。
靶基因富集分析:獲得靶基因之后,我們也可以進(jìn)一步通過(guò)靶基因的功能和參與的pathway進(jìn)行富集分析,通過(guò)顯著性富集的GO或pathway與疾病之間的關(guān)系,再反過(guò)來(lái)尋找對(duì)應(yīng)的lncRNA。
lncRNA靶基因的pathway富集
(3)根據(jù)lncRNA與mRNA在表達(dá)上的協(xié)同關(guān)系進(jìn)行推斷
共表達(dá)分析(co-expression)
基因表達(dá)受到復(fù)雜的調(diào)控網(wǎng)絡(luò)的調(diào)控,這包括其他基因和非編碼RNA,通過(guò)共表達(dá)計(jì)算構(gòu)建共表達(dá)基因調(diào)控網(wǎng)絡(luò),可通過(guò)網(wǎng)絡(luò)篩選具有hub地位的lncRNA(即該lncRNA與其它基因具有很高的連通度)。
lncRNA-mRNA共表達(dá)網(wǎng)絡(luò)示例圖
也可以分別構(gòu)建疾病組和對(duì)照組的共表達(dá)網(wǎng)絡(luò),然后比較兩個(gè)網(wǎng)絡(luò)之間“地位”變化最明顯的lncRNA。另一方面,在已知某個(gè)mRNA功能的前提下,也可以直接通過(guò)這種方法,直接尋找到與該mRNA關(guān)系最密切的lncRNA。
疾病組網(wǎng)絡(luò) 對(duì)照組網(wǎng)絡(luò)【5】
加權(quán)共表達(dá)分析(WGCNA)
加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(weighted gene co-expression network analysis)算法作為一種高效、準(zhǔn)確的數(shù)據(jù)挖掘方法,日前應(yīng)用非常廣泛【6】。
WGCNA共表達(dá)網(wǎng)絡(luò)分析示例圖
WGCNA算法致力于尋找協(xié)同表達(dá)的基因模塊(module),并探索基因網(wǎng)絡(luò)與研究者關(guān)注的表型之間的關(guān)聯(lián)關(guān)系。module被定義為一組具有類(lèi)似表達(dá)譜的基因,如果某些基因在一個(gè)生理過(guò)程或不同組織中總是具有相類(lèi)似的表達(dá)變化,那么我們有理由認(rèn)為這些基因在功能上是相關(guān)的,可以把他們定義為一個(gè)模塊。也可以這么理解,每個(gè)模塊就是一個(gè)“超級(jí)基因”,它的表達(dá)量是所有成員共同作用的結(jié)果。以上所說(shuō)的“基因”時(shí)候一個(gè)廣義的概念,當(dāng)我們把mRNA和lncRNA放在一起進(jìn)行分析時(shí),module中就同時(shí)包含了兩者的信息。由于目前已知功能的lncRNA微乎其微,這種分析策略非常有助于尋找跟我們所熟知的mRNA關(guān)系密切的那些lncRNA,從而有效縮小候選lncRNA的范圍。
4)基于lncRNA與protein的關(guān)系進(jìn)行篩選
通過(guò)以上生物信息學(xué)手段,能夠推斷出lncRNA與mRNA可能存在的調(diào)控關(guān)系,但這僅僅是計(jì)算的層面,在生物學(xué)層面上這種調(diào)控往往是通過(guò)lncRNA-蛋白復(fù)合物的形式發(fā)揮作用的。即lncRNA首先與某些蛋白(包括轉(zhuǎn)錄因子、表觀修飾因子等)形成RNA-protein復(fù)合體,然后再與下游的DNA結(jié)合,調(diào)控DNA的轉(zhuǎn)錄。
lncRNA介導(dǎo)的這種轉(zhuǎn)錄調(diào)控作用多為trans調(diào)控,即lncRNA對(duì)其他染色體上編碼基因的調(diào)控。
linc1992-hnRNPL復(fù)合體對(duì)TNFα的調(diào)控【8】
但也有研究發(fā)現(xiàn),lncRNA-protein 也能夠以cis的方式對(duì)同一染色體上臨近mRNA的轉(zhuǎn)錄進(jìn)行調(diào)控。
lncTCF7-SWI/SNF復(fù)合體激活附近的TCF7表達(dá)【9】
通過(guò)類(lèi)似這種模式,lncRNA也可以作為分子阻斷劑。這一類(lèi)lncRNA被轉(zhuǎn)錄后,會(huì)直接和蛋白結(jié)合,由于lncRNA的結(jié)合,這類(lèi)蛋白的功能被阻斷,從而影響了下游的基因轉(zhuǎn)錄?;蛘?,lncRNA跟蛋白的結(jié)合,妨礙了該蛋白與另一個(gè)蛋白形成復(fù)合物,即可抑制了蛋白之間形成有功能的復(fù)合體。
(5)根據(jù)lncRNA與miRNA的靶向關(guān)系篩選
細(xì)胞內(nèi)存在競(jìng)爭(zhēng)性內(nèi)源RNA(Competitive endogenous RNA,ceRNA),這些ceRNA分子(mRNA,lncRNA、假基因等)能夠通過(guò)miRNA應(yīng)答元件(MicroRNA Response Element,MRE)競(jìng)爭(zhēng)結(jié)合相同的miRNA以達(dá)到調(diào)節(jié)彼此表達(dá)水平。細(xì)胞內(nèi)除mRNA之外,還存在另外一些RNA分子,比如長(zhǎng)鏈非編碼RNA(lncRNA)也存在miRNA應(yīng)答元件(MRE),當(dāng)lncRNA與mRNA存在相同的MRE時(shí),他們之間構(gòu)成了競(jìng)爭(zhēng)相同種類(lèi)miRNA的關(guān)系,換句話說(shuō),細(xì)胞內(nèi)lncRNA表達(dá)水平的高低,直接影響了可被相應(yīng)mRNA結(jié)合的miRNA數(shù)量的多少,也就是說(shuō),lncRNA通過(guò)MRE這個(gè)橋梁,間接地調(diào)控了mRNA的表達(dá)水平,從而調(diào)控細(xì)胞功能。
根據(jù)以上原理,我們可以通過(guò)軟件預(yù)測(cè)lncRNA與miRNA可能存在的靶向關(guān)系,再根據(jù)已知的miRNA與mRNA之間的調(diào)控關(guān)系,最終確定3者之前的網(wǎng)絡(luò)。ceRNA分析是基于lncRNA和mRNA的表達(dá)值,通過(guò)回歸模型分析篩選ceRNA對(duì),與microRNA種子序列和lncRNA和mRNA匹配,這兩方面結(jié)合進(jìn)行預(yù)測(cè),建立microRNA的海綿吸附作用的調(diào)控網(wǎng)絡(luò),找到核心的ceRNA。有些算法同時(shí)考慮miRNA的表達(dá)【10】,但因?yàn)閏eRNA對(duì)miRNA只是吸附,并不一定影響miRNA本身的表達(dá),所以也可以不去考慮。
ceRNA調(diào)控網(wǎng)絡(luò)示例圖
3
lncRNA的編碼能力預(yù)測(cè)
高通量檢測(cè)手段(芯片或測(cè)序)能夠幫我們篩選到某種特定條件下特異性表達(dá)的lncRNA。當(dāng)我們拿到這條lncRNA后,除了在樣本中qRT-PCR驗(yàn)證其表達(dá)外,還需要分析其編碼能力:
CPC分析
CPC(Coding Potential Calculator)是一種蛋白質(zhì)編碼潛能計(jì)算工具,將轉(zhuǎn)錄本與已知蛋白數(shù)據(jù)庫(kù)做blastx比對(duì),依據(jù)轉(zhuǎn)錄本各個(gè)編碼框的生物學(xué)序列特征,通過(guò)支持向量機(jī)的分類(lèi)器來(lái)評(píng)估轉(zhuǎn)錄本的編碼潛能。
CNCI分析
CNCI(Coding-Non-Coding Index)是一種編碼-非編碼轉(zhuǎn)錄本區(qū)分工具,針對(duì)高通量測(cè)序之后得到的拼接轉(zhuǎn)錄本進(jìn)行分析。該工具不依賴于已知的注釋文件,根據(jù)相鄰核苷酸三聯(lián)體特征區(qū)分序列的編碼和非編碼潛能。
pfam蛋白結(jié)構(gòu)域分析
利用pfamscan工具對(duì)序列在pfam HMM庫(kù)中進(jìn)行蛋白結(jié)構(gòu)域搜索,以篩除具有已知蛋白結(jié)構(gòu)域的序列。同時(shí)使用Pfam-A和Pfam-B庫(kù),其中Pfam-A記錄了大部分已知蛋白結(jié)構(gòu)域、經(jīng)過(guò)人工篩選,質(zhì)量較高,而Pfam-B數(shù)據(jù)庫(kù)則更加全面的覆蓋了結(jié)構(gòu)域家族,是對(duì)Pfam-A的補(bǔ)充。將轉(zhuǎn)錄本各個(gè)編碼框上的蛋白序列與Pfam-A和Pfam-B數(shù)據(jù)庫(kù)做hmmscan的同源搜索,能比對(duì)上的序列即為具有某個(gè)蛋白結(jié)構(gòu)域的轉(zhuǎn)錄本,被認(rèn)為具有編碼能力,而比不到的轉(zhuǎn)錄本極有可能是非編碼的轉(zhuǎn)錄本。
phyloCSF分析
PhyloCSF(Phylogenetic Codon Substitution Frequency)根據(jù)轉(zhuǎn)錄本的多物種全基因組比對(duì)結(jié)果,計(jì)算該序列密碼子替換頻率CSF(Codon Substitution Freuqencies,指某密碼子替換在多序列比對(duì)中的出現(xiàn)的頻率,編碼和非編碼區(qū)的密碼子替換頻率比值是一個(gè)有效區(qū)分一段序列能否編碼蛋白的方法),同時(shí)結(jié)合物種間系統(tǒng)進(jìn)化樹(shù)上的距離,對(duì)轉(zhuǎn)錄本的編碼潛能進(jìn)行打分。
當(dāng)然,目前一些頂級(jí)期刊上發(fā)表的論文也證明了non-coding RNA能夠編碼特定多肽【11,12】,甚至有觀點(diǎn)認(rèn)為lncRNA能夠普遍編碼蛋白【13】,“非編碼”RNA的定義逐漸變得模糊。
4
lncRNA的調(diào)控機(jī)制驗(yàn)證
(1) RACE明確lncRNA序列
無(wú)論是芯片或者測(cè)序,很多情況下,我們是不能完全確定有一條lncRNA的全長(zhǎng)的。而lncRNA的序列信息,及其在一級(jí)結(jié)構(gòu)基礎(chǔ)上形成的空間結(jié)構(gòu),是決定其功能的重要基礎(chǔ)。因此,我們需要對(duì)其全長(zhǎng)進(jìn)行確認(rèn)。通常情況下,大家會(huì)通過(guò)3’RACE,5’RACE實(shí)驗(yàn)去確認(rèn)其全長(zhǎng)。有了全長(zhǎng)信息,我們會(huì)對(duì)該lncRNA有更加清晰的認(rèn)識(shí)。2017年有研究者將目標(biāo)RNA捕獲技術(shù)與三代測(cè)序技術(shù)相結(jié)合,對(duì)整個(gè)GENCODE數(shù)據(jù)庫(kù)中人類(lèi)和小鼠基因間區(qū)的lncRNA進(jìn)行了重新注釋?zhuān)@部分全長(zhǎng)序列信息相信對(duì)lncRNA的研究人員有非常高的價(jià)值【14】。
(2) lncRNA在細(xì)胞內(nèi)的定位
雖然我們能夠利用各種生物信息學(xué)手段推測(cè)lncRNA可能的調(diào)控機(jī)制,接下來(lái)還可以先通過(guò)lncRNA在胞內(nèi)的定位,印證之前的生信分析是否成立。通過(guò)傳統(tǒng)的實(shí)驗(yàn)手段便能夠確認(rèn)其細(xì)胞定位,來(lái)知道它主要在核內(nèi),還是在核外。如果是核內(nèi),那么,接下來(lái)考慮的作用方式可以就是染色質(zhì)調(diào)控,轉(zhuǎn)錄調(diào)控(結(jié)合到啟動(dòng)子區(qū),和某些轉(zhuǎn)錄因子互作,Pol II的抑制子……);如果是核外,那么,考慮的作用方式可能是轉(zhuǎn)錄后調(diào)控(影響mRNA的穩(wěn)定性,影響mRNA翻譯,作為miRNA的”sponge”……)。此外,一些數(shù)據(jù)庫(kù)比如RNALocate也可以幫助我們了解lncRNA的定位信息。
RNA FISH技術(shù)原位檢測(cè)lncRNA的定位【15】
(3) lncRNA與protein的結(jié)合
RIP,CLIP,RNA pull down等實(shí)驗(yàn)時(shí)也是驗(yàn)證RNA-Protein互作的常規(guī)手段。
(4)lncRNA-protein與下游靶基因的結(jié)合
lncRNA-protein最終會(huì)結(jié)合到下游靶基因的promoter區(qū),因此這種結(jié)合關(guān)系可以通過(guò)ChIP來(lái)驗(yàn)證。
5
lncRNA的上游調(diào)控因子
大多數(shù)研究關(guān)注在lncRNA下游調(diào)控機(jī)制,lncRNA的上游調(diào)控機(jī)制也是十分重要的,一方面可以通過(guò)對(duì)多種類(lèi)型樣本和實(shí)驗(yàn)條件下的CHIPseq進(jìn)行數(shù)據(jù)分析,預(yù)測(cè)lncRNA上游轉(zhuǎn)錄因子,或者直接借助數(shù)據(jù)庫(kù)(例如CHIPbase);另一方面也可以通過(guò)多組學(xué)聯(lián)合分析的方法,比如用Illumina 850k芯片同時(shí)分析基因組上lncRNA上游區(qū)域的甲基化變化,從而建立DNA甲基化-lncRNA的調(diào)控關(guān)系。
6
lncRNA相關(guān)數(shù)據(jù)庫(kù)
目前公開(kāi)的lncRNA相關(guān)數(shù)據(jù)庫(kù)資源非常豐富,但是各個(gè)數(shù)據(jù)庫(kù)間的冗余、lncRNA命名方式的差異、ID號(hào)不統(tǒng)一等問(wèn)題一定程度上給研究人員來(lái)帶了諸多不便,這些問(wèn)題有待解決。一些比較實(shí)用的數(shù)據(jù)庫(kù)如下,可供參考。
7
lncRNA的功能研究
在經(jīng)典遺傳學(xué)理論中,無(wú)論是孟德?tīng)柸旧w分離與自由組合定律還是摩爾根染色體連鎖定律,基因和表型之間的關(guān)聯(lián)性始終貫穿其中。在現(xiàn)代分子生物學(xué)的研究中,基因的表型往往影響了整個(gè)工作的完整性以及最終能夠達(dá)到的水平。這一點(diǎn)對(duì)于反向遺傳學(xué)而言更加如此。因此,基因表型的研究至關(guān)重要。腫瘤研究中,使用較多的表型研究策略包括RNA干擾以及最新的基因編輯系統(tǒng)CRISPR/Cas9系統(tǒng)
最近發(fā)展起來(lái)一種CRISPR干擾(CRISPR interference, CRISPRi)技術(shù),將dCas9(核酸酶活性缺失的Cas9)和KRAB抑制結(jié)構(gòu)域融合在一起,所產(chǎn)生的融合蛋白能夠識(shí)別基因組上的靶位點(diǎn),抑制基因表達(dá)而無(wú)需切割DNA。令人驚訝的是,有研究表明以這種方式沉默基因表達(dá)要比永久性地切割基因組具有更好的準(zhǔn)確性和更高的效率。CRISPRi主要是在轉(zhuǎn)錄水平發(fā)揮作用,可以阻礙RNA的轉(zhuǎn)錄起始,也可以抑制RNA的延伸,取決于sgRNA設(shè)計(jì)在promoter附近還是exon上。由于CRISPRi作用于特定的位置,因此可以通過(guò)將sgRNA設(shè)計(jì)在lncRNA的特異性序列上,從而盡可能避免干擾lncRNA的同時(shí)影響附近mRNA的表達(dá)。當(dāng)然,由于lncRNA與 mRNA的位置關(guān)系太過(guò)復(fù)雜,一些情況下仍難以單獨(dú)敲降lncRNA而不影響mRNA表達(dá),比如bidirectional 類(lèi)型的lncRNA,或者 lncRNA的promoter與其它基因的promoter位置重疊或臨近。類(lèi)似的,如果將dCas9與一些轉(zhuǎn)錄激活域融合,則可以激活靶位點(diǎn)的轉(zhuǎn)錄,叫做CRISPR激活(CRISPR activation, CRISPRa),利用此技術(shù)可以實(shí)現(xiàn)對(duì)lncRNA的過(guò)表達(dá)。
CRISPRi技術(shù)原理示意圖
參考文獻(xiàn)
【1】Gutschner T, Diederichs S. The hallmarks of cancer: a long non-coding RNA point of view. RNA Biol 2012, 9(6):703-19.
【2】Schmitt AM, Chang HY. Long Noncoding RNAs in Cancer Pathways. Cancer Cell 2016, 29(4):452-463.
【3】Bartonicek N, Maag JL, Dinger ME. Long noncoding RNAs in cancer: mechanisms of action and technological advancements. Mol Cancer 2016, 15(1):43.
【4】Knauss J, Sun T. Regulatory mechanisms of long noncoding RNAs in vertebrate central nervous system development and function. Neuroscience 2013, 235:200-14.
【5】Liu Z, Li X, Sun N, et al. Microarray profiling and co-expression network analysis of circulating lncRNAs and mRNAs associated with major depressive disorder. PLoS One 2014, 9(3):e93388.
【6】Langfelder P, Horvath S. WGCNA: an R package for weighted correlation network analysis. BMC Bioinformatics 2008 ,9:559.
【7】Yang Y, Chen L, Gu J, et al. Recurrently deregulated lncRNAs in hepatocellular carcinoma. Nat Commun 2017, 8:14421.
【8】Li Z, Chao TC, Chang KY, et al. The long noncoding RNA THRIL regulates TNFα expression through its interaction with hnRNPL. Proc Natl Acad Sci U S A 2014, 111(3):1002-7.
【9】Wang Y, He L, Du Y, et al. The long noncoding RNA lncTCF7 promotes self-renewal of human liver cancer stem cells through activation of Wnt signaling. Cell Stem Cell 2015, 16(4):413-25.
【10】Paci P, Colombo T, Farina L. Computational analysis identifies a sponge interaction network between long non-coding RNAs and messenger RNAs in human breast cancer. BMC Syst Biol 2014, 8:83.
【11】Anderson DM, Anderson KM, Chang CL, et al. A micropeptide encoded by a putative long noncoding RNA regulates muscle performance. Cell 2015, 160(4):595-606.
【12】Nelson BR, Makarewich CA, Anderson DM, et al. A peptide encoded by a transcript annotated as long noncoding RNA enhances SERCA activity in muscle. Science 2016, 351(6270):271-5.
【13】Ruiz-Orera J, Messeguer X, Subirana JA, et al. Long non-coding RNAs as a source of new peptides. Elife 2014, 3:e03523.
【14】Lagarde J, Uszczynska-Ratajczak B, Carbonell S, et al. High-throughput annotation of full-length long noncoding RNAs with capture long-read sequencing. Nat Genet 2017, 49(12):1731-1740.
【15】Atianand MK, Hu W, Satpathy AT, et al. A Long Noncoding RNA lincRNA-EPS Acts as a Transcriptional Brake to Restrain Inflammation. Cell 2016, 165(7):1672-1685.
聯(lián)系客服