計(jì)算機(jī)輔助藥物設(shè)計(jì)中的一項(xiàng)重要任務(wù)是發(fā)現(xiàn)與致病蛋白具有高結(jié)合親和力的先導(dǎo)化合物。由于蛋白質(zhì)-配體結(jié)合親和力預(yù)測在很大程度上依賴于配體在結(jié)合口袋中的位置,因此從配體眾多對接姿勢中挑選出最優(yōu)結(jié)合姿勢至關(guān)重要,這將影響到虛擬篩選結(jié)果的可信度。本文介紹的是2022年12月發(fā)表在國際知名生物信息學(xué)期刊《Briefings in Bioinformatics》(IF=13.994)上發(fā)表的一篇題為《A fully differentiable ligand pose optimization framework guided by deep learning and a traditional scoring function》的研究論文。該論文重點(diǎn)闡述了如何基于深度學(xué)習(xí)算法進(jìn)行小分子構(gòu)象的選擇和局部優(yōu)化。論文的共同第一作者是王澤琛(山東大學(xué)物理學(xué)院)和鄭良振博士(上海智峪生科和中科院深圳先進(jìn)院),共同通訊作者是鄭博士和李偉峰教授(山東大學(xué)物理學(xué)院)。
圖1. 小分子構(gòu)象優(yōu)化論文截圖
在基于結(jié)構(gòu)的虛擬篩選中,分子對接通常被用于探索配體在結(jié)合到蛋白質(zhì)上時的潛在構(gòu)象。當(dāng)前的分子對接程序主要受制于打分函數(shù)的精度,致使較高的假陽性率。隨著蛋白質(zhì)-配體結(jié)構(gòu)與結(jié)合親和力數(shù)據(jù)的持續(xù)擴(kuò)增,基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的打分函數(shù)有望實(shí)現(xiàn)更高的精度。研究表明,打分函數(shù)的打分能力 (scoring power) 和對接能力 (docking power) 之間并沒有很強(qiáng)的關(guān)聯(lián)性。盡管一些基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的打分函數(shù)已經(jīng)被證明具有較強(qiáng)的打分能力,但是在對接任務(wù)中卻表現(xiàn)很差,甚至不如傳統(tǒng)的打分函數(shù)。因此,設(shè)計(jì)一個基于機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的打分函數(shù)來選擇配體的近天然構(gòu)象,并明確地指導(dǎo)分子對接場景中的采樣過程是非常有必要的。
雖然近些年基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的打分函數(shù)層出不窮,但是它們大多聚焦于親和力預(yù)測,當(dāng)遷移到分子對接場景上時表現(xiàn)非常有限。此外,當(dāng)前應(yīng)用于分子對接場景的打分函數(shù)通常是對計(jì)算機(jī)產(chǎn)生的配體結(jié)合姿勢進(jìn)行重新打分,如GNINA。然而,基于深度學(xué)習(xí)算法來指導(dǎo)配體在蛋白質(zhì)結(jié)合口袋中的結(jié)合行為仍然處于起步期。在大規(guī)模分子對接任務(wù)中,快速且有效地提升配體結(jié)合姿勢的質(zhì)量具有重要意義。
方法介紹
在評估對接能力時,一般認(rèn)為RMSD(小分子的方均根偏差)越小的結(jié)合姿勢具有更大的結(jié)合親和力。因此,對于同一個蛋白質(zhì)-配體復(fù)合物的不同結(jié)合狀態(tài),RMSD值可以近似成表征親和力大小的另一種形式。論文作者提出的DeepRMSD是一個預(yù)測配體結(jié)合姿勢RMSD的打分函數(shù),將其與AutoDock Vina打分函數(shù)相結(jié)合 (DeepRMSD+Vina) 可以實(shí)現(xiàn)更高的對接成功率。鑒于DeepRMSD+Vina是對配體坐標(biāo)完全可導(dǎo)的,因此基于該打分函數(shù)應(yīng)用梯度回傳構(gòu)建了一個配體構(gòu)象優(yōu)化框架。
作者使用了PDBBind v2019中的蛋白質(zhì)-配體復(fù)合物結(jié)構(gòu)以及AutoDock Vina生成的對接姿勢作為DeepRMSD的訓(xùn)練、驗(yàn)證集,同時使用了主流打分函數(shù)評價標(biāo)準(zhǔn)CASF-2016以及交叉對接數(shù)據(jù)集DISCO作為測試集。分子對接產(chǎn)生的結(jié)合姿勢與天然構(gòu)象之間的RMSD作為模型訓(xùn)練的標(biāo)簽。
在特征提取方面,作者首先計(jì)算了蛋白質(zhì)與配體原子兩兩之間的距離,并對這些距離值分別作-1和-6次冪處理,然后根據(jù)特定的蛋白質(zhì)-配體原子組合方式和距離處理方式分別進(jìn)行求和,進(jìn)而得到該原子組合的特征值 (Eq.1):
式中RA和L分別是蛋白質(zhì)和配體的原子類型,i為-1或-6。將所有的特征值對接在一起形成該蛋白質(zhì)-配體最終的特征向量,應(yīng)用多層感知機(jī) (MLP) 來擬合特征向量與RMSD之間的關(guān)系。這種特征描述方式使得DeepRMSD分?jǐn)?shù)對分子坐標(biāo)可導(dǎo),從而為接下來搭建配體構(gòu)象優(yōu)化框架奠定了基礎(chǔ)。
作者定義了一個長度為6+k的向量
來表征配體的構(gòu)象。其中該向量的前六個值分別是第一個原子的3D坐標(biāo)和在空間中繞x, y, z軸旋轉(zhuǎn)的角度指的是配體可旋轉(zhuǎn)鍵的數(shù)目和第k個可旋轉(zhuǎn)鍵的扭轉(zhuǎn)角度。在構(gòu)建配體構(gòu)象優(yōu)化框架時,并沒有直接對配體每個原子的坐標(biāo)進(jìn)行改變,而是通過對分子進(jìn)行平移、旋轉(zhuǎn)以及扭轉(zhuǎn)分子內(nèi)部的可旋轉(zhuǎn)鍵來實(shí)現(xiàn),進(jìn)而保證了配體分子在優(yōu)化過程中結(jié)構(gòu)的合理性。配體構(gòu)象優(yōu)化流程如圖2所示:首先,配體分子被編碼成長度為6+k的向量,這是該優(yōu)化框架中對配體結(jié)合姿勢最原始的表示。然后,由該向量還原出配體的3D坐標(biāo),用于提取蛋白質(zhì)-配體相互作用特征以及計(jì)算Vina score。特征向量被輸入到神經(jīng)網(wǎng)絡(luò)中來產(chǎn)生結(jié)合姿勢的RMSD,將RMSD值與Vina score結(jié)合在一起作為最后的綜合得分。至此,一個以配體向量為輸入、以DeepRMSD+Vina的綜合打分為輸出的計(jì)算圖構(gòu)建完成。為了實(shí)現(xiàn)配體結(jié)合姿勢的迭代優(yōu)化,每當(dāng)DeepRMSD+Vina打分完成,便計(jì)算綜合分?jǐn)?shù)對配體向量的導(dǎo)數(shù),并將其作用于當(dāng)前的配體向量來生成新的配體向量。當(dāng)DeepRMSD+Vina分?jǐn)?shù)不再顯著下降時,優(yōu)化停止。圖2. 基于DeepRMSD+Vina構(gòu)建的配體構(gòu)象優(yōu)化框架
結(jié)果描述
DeepRMSD+Vina的對接能力評估
在CASF-2016對接測試集上的結(jié)果表明,DeepRMSD在高RMSD值的結(jié)合姿勢上表現(xiàn)較好,相反,Vina score在低RMSD的結(jié)合姿勢上表現(xiàn)更好 (圖3a)。分子對接的主要目的是區(qū)分出一個或幾個近天然結(jié)合姿勢,這些結(jié)合姿勢通常具有較低的RMSD值,因此打分函數(shù)在低RMSD區(qū)間的準(zhǔn)確性十分重要。有趣的是,DeepRMSD+Vina作為兩者的結(jié)合,在低RMSD區(qū)間能夠取得更理想的效果。在CASF-2016 docking power測試中,DeepRMSD+Vina實(shí)現(xiàn)的Top 1成功率達(dá)到94.4 %(圖3b,包含天然結(jié)構(gòu))和91.6%(圖3c,不包含天然結(jié)構(gòu))。
圖3. 在CASF-2016上的對接能力測試
DeepRMSD+Vina和配體構(gòu)象優(yōu)化框架在實(shí)際應(yīng)用場景中的評估
在實(shí)際分子對接場景下,通過分子對接軟件將配體對接到靶體上產(chǎn)生一定數(shù)目的結(jié)合姿勢,然后通過打分函數(shù)對這些結(jié)合姿勢進(jìn)行打分排序,挑選出排名靠前的結(jié)合姿勢。通常情況下,這些排名靠前的結(jié)合姿勢仍然與天然構(gòu)象之間存在或大或小的差異。因此,這些結(jié)合姿勢的質(zhì)量仍然有進(jìn)一步提高的空間。理想情況下,經(jīng)過優(yōu)化后的RMSD+Vina分?jǐn)?shù)與真實(shí)RMSD值同時下降,代表優(yōu)化成功。但是,受制于蛋白質(zhì)結(jié)合口袋的形狀與大小,很多情況下配體的活動范圍有限,這使得優(yōu)化后的RMSD+Vina值未必會下降。因此,作者只考慮優(yōu)化后RMSD+Vina下降的樣本來統(tǒng)計(jì)優(yōu)化成功率。作者在重對接 (redocking) 和交叉對接 (cross-docking) 任務(wù)中測試了配體構(gòu)象優(yōu)化框架的優(yōu)化成功率 (圖4a和4d)??梢钥闯觯瑢τ赗MSD在1-4之間的結(jié)合姿勢,優(yōu)化框架表現(xiàn)優(yōu)異,有能力進(jìn)一步提高結(jié)合姿勢質(zhì)量。在redocking(圖4b,4c)和cross-docking(圖4e和4f)對接成功率上,DeepRMSD+Vina顯著優(yōu)于基準(zhǔn)打分函數(shù)Vina score和DeepBSP。
圖4. DeepRMSD+Vina和配體構(gòu)象優(yōu)化框架在redocking和cross-docking任務(wù)中的表現(xiàn)
優(yōu)化結(jié)構(gòu)分析
理想情況下,成功優(yōu)化的結(jié)構(gòu)能更接近天然構(gòu)象,并且有更強(qiáng)的分子間相互作用。這些高質(zhì)量的結(jié)合姿勢在優(yōu)化過程中或許會受到一些關(guān)鍵相互作用的影響,比如氫鍵、
堆疊等。圖5展示了一個結(jié)合姿勢優(yōu)化前后氫鍵形成情況??梢悦黠@地看出,優(yōu)化后的結(jié)構(gòu)具有更多的氫鍵,符合蛋白質(zhì)-配體結(jié)合的基本物理規(guī)律。圖5. 結(jié)合姿勢 (PDB: 1OWH) 優(yōu)化前后氫鍵形成情況。青色表示配體結(jié)合姿勢,綠色與配體形成氫鍵的關(guān)鍵殘基,橙色虛線表示氫鍵。
結(jié)語
該論文基于深度學(xué)習(xí)算法設(shè)計(jì)了一個預(yù)測配體結(jié)合姿勢RMSD的打分函數(shù)DeepRMSD,通過與傳統(tǒng)打分函數(shù)Vina score結(jié)合,DeepRMSD+Vina能夠取得更高的對接成功率。論文中強(qiáng)調(diào)了對分子坐標(biāo)可導(dǎo)的打分函數(shù)在未來分子對接和分子優(yōu)化領(lǐng)域的重要性。作者基于DeepRMSD+Vina設(shè)計(jì)了一個配體構(gòu)象優(yōu)化框架來優(yōu)化配體在受體結(jié)合口袋中的構(gòu)象,這為深度學(xué)習(xí)算法在分子結(jié)構(gòu)優(yōu)化領(lǐng)域提供了范例,并有助于提高未來分子對接程序的性能,助力基于結(jié)構(gòu)的虛擬篩選。
同時,基于transformer的小分子構(gòu)象預(yù)測模型結(jié)合DeepRMSD+Vina的局部構(gòu)象優(yōu)化,助力了鄭良振博士和王晟博士(智峪生科CEO)帶領(lǐng)的智峪生科AIchemy-LIG系列算法在CASP15的蛋白質(zhì)-小分子復(fù)合體預(yù)測競賽上獲得優(yōu)秀成績(如圖6,按全部構(gòu)象評分第二名,按第一構(gòu)象評分第三名)。
圖6. CASP15蛋白質(zhì)-小分子復(fù)合體預(yù)測排名(按照全部構(gòu)象)
參考資料
Wang, Z., Zheng, L., Wang, S., Lin, M., Wang, Z., Kong, A.W.K., Mu, Y., Wei, Y. and Li, W., A fully differentiable ligand pose optimization framework guided by deep learning and a traditional scoring function. Briefings in bioinformatics, p.bbac520.
聯(lián)系客服