前言
藥物發(fā)現(xiàn)是一個(gè)對(duì)候選藥物進(jìn)行體外測(cè)試、體內(nèi)驗(yàn)證以及其他步驟的復(fù)雜過程。在此之前,研究者需要廣泛地評(píng)估候選分子以確立最有可能商業(yè)化的單個(gè)藥物。即使是在體外進(jìn)行廣泛的數(shù)據(jù)庫篩選也是非常耗時(shí)耗力的。藥物研發(fā)流程從開始到商業(yè)化平均需要12年的時(shí)間,平均投入為18億美元。
研究人員和制藥企業(yè)致力于降低藥物研發(fā)的時(shí)間和投入成本,分子對(duì)接可以使用復(fù)雜的過濾器挑選感興趣的候選藥物,分子對(duì)接也能夠用于檢測(cè)藥物潛在的毒副作用。分子對(duì)接使用配體和靶標(biāo)的三維結(jié)構(gòu),來預(yù)測(cè)相互結(jié)合的最佳模式。通常,配體是非常小的分子,具體大小取決于項(xiàng)目本身。在藥物發(fā)現(xiàn)中,配體指的是活性成分,靶標(biāo)指的是生物大分子(例如蛋白或者DNA),但對(duì)接可以涵蓋廣泛的配對(duì)可能性:蛋白-DNA、蛋白-RNA、蛋白-糖、蛋白-肽段以及蛋白-小分子化合物的對(duì)接。這里,我們聚焦于蛋白-小分子化合物(也就是蛋白-配體)的分子對(duì)接,它們是目前分子對(duì)接方法研究的重要內(nèi)容。本文對(duì)配體-蛋白對(duì)接的概念進(jìn)行了描述,這個(gè)概念同樣適用于其他類型的對(duì)接。一些實(shí)驗(yàn)方法可以獲得分子的三維結(jié)構(gòu),如X射線晶體衍射方法是目前最流行的方法,其他還包括了核磁共振(NMR)和電鏡等方法。PDB數(shù)據(jù)庫,是蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫,它的90%的結(jié)構(gòu)通過X-射線晶體衍射得到(如果只考慮已知配體-蛋白結(jié)合親和力的結(jié)構(gòu),則幾乎占 99%),8%的結(jié)構(gòu)通過NMR獲得,相關(guān)方法和統(tǒng)計(jì)信息可訪問PDB網(wǎng)站了解詳情(www.rcsb.org)。
藥物研發(fā)經(jīng)常需要針對(duì)一個(gè)靶點(diǎn)全面測(cè)試一個(gè)配體庫,這一步被稱為虛擬篩選(VS)或高通量虛擬篩選(HTVS),用以減少在體內(nèi)和體外測(cè)試的配體數(shù)量。通過對(duì)配體排序排除那些低親和力的配體(這樣的配體通常不具備可藥性潛力)。通過虛擬篩選,最具潛力的分子被選擇用于后續(xù)的體外、體內(nèi)試驗(yàn)。虛擬篩選可以是基于配體的(也就是只使用配體的信息):根據(jù)配體結(jié)構(gòu)和化學(xué)性質(zhì),來預(yù)測(cè)相似的配體是否能夠與相似的靶標(biāo)結(jié)合。虛擬篩選也可以是基于結(jié)構(gòu)的,使用復(fù)合物分子結(jié)構(gòu)決定特定配體是否能夠與靶標(biāo)結(jié)合。分子對(duì)接可用于基于結(jié)構(gòu)的虛擬篩選,一些文章則直接將分子對(duì)接表述為基于結(jié)構(gòu)的虛擬篩選。此處,我們聚焦于基于結(jié)構(gòu)的分子對(duì)接方法。
配體-蛋白分子對(duì)接
基于三維結(jié)構(gòu),分子對(duì)接實(shí)驗(yàn)可以預(yù)測(cè)復(fù)合物構(gòu)象和結(jié)合親和力。分子對(duì)接包括兩步,第一步是采樣,根據(jù)配體的剛性的三維結(jié)構(gòu)生成一系列的構(gòu)象。采樣需要探索配體分子構(gòu)象空間,并且聚集所有理論上可能的構(gòu)象。第二步是打分,評(píng)估蛋白-配體復(fù)合物構(gòu)象(pose)形成時(shí)的結(jié)合親和力。雖然這兩步是獨(dú)立進(jìn)行,但是它們之間顯著相關(guān),因?yàn)榇蚍趾瘮?shù)(SF)常被用于指導(dǎo)采樣。
任何分子對(duì)接方法都面臨的主要挑戰(zhàn),是處理分子柔性和真實(shí)地反應(yīng)分子間的結(jié)合(圖2),這都需要大量的計(jì)算時(shí)間。這里我們概括了分子對(duì)接相關(guān)問題、目前的挑戰(zhàn)以及解決方法(未使用機(jī)器學(xué)習(xí))。
第一項(xiàng)挑戰(zhàn):分子柔性
真實(shí)情況下,分子的柔性體現(xiàn)在鍵、角和二面角的轉(zhuǎn)動(dòng),雖然分子的柔性是分子對(duì)接考慮的基本要素,但是早期的分子對(duì)接方法將分子視為剛性結(jié)構(gòu)并且使用鎖鑰原理處理對(duì)接問題。新的方法基于啟發(fā)式的構(gòu)象空間探索方法,提高了對(duì)柔性分子的采樣能力。這種方法被稱為半柔性對(duì)接,因?yàn)橹豢紤]小分子的柔性,而將靶標(biāo)仍然視為剛性。進(jìn)一步的,一些方法將兩者都視為柔性的。因而靶標(biāo)的柔性處理出現(xiàn)了不同的方法:一種是利用動(dòng)力學(xué)模擬對(duì)靶標(biāo)進(jìn)行廣泛采樣,相關(guān)結(jié)構(gòu)被挑選用于多個(gè)剛性靶標(biāo)對(duì)接實(shí)驗(yàn);另一種策略是只將圍繞在結(jié)合位點(diǎn)的殘基的側(cè)鏈視作柔性的,推論認(rèn)為當(dāng)配體存在會(huì)誘導(dǎo)這些柔性側(cè)鏈的變動(dòng),這一方法也被稱為“誘導(dǎo)契合”。
配體構(gòu)象空間采用
一個(gè)分子有著多重自由度(三個(gè)坐標(biāo)、三個(gè)朝向以及可旋轉(zhuǎn)鍵角導(dǎo)致的固有柔性),這些都是產(chǎn)生構(gòu)象空間的要素。探索構(gòu)象空間在計(jì)算上是不可行的,即使是小分子化合物。因此一些采樣方法出現(xiàn),用于優(yōu)化并且搜尋最好的構(gòu)象。采樣方法可以分為形狀匹配、系統(tǒng)采樣、隨機(jī)采樣和模擬采樣。表1展示了幾種對(duì)接軟件和相關(guān)采樣技術(shù)。隨機(jī)采樣方法是目前使用最為廣泛的采樣方法。
形狀匹配方法
形狀匹配是第一個(gè)對(duì)接程序DOCK所使用的采樣方法,這種技術(shù)通過幾何形狀表征分子(配體和受體),例如球體或多面體,并使用匹配或互補(bǔ)的原則尋找新構(gòu)象的形狀。然而這一方法無法考慮分子內(nèi)部柔性,因此需要在搜索開始前就產(chǎn)生分子構(gòu)型。
系統(tǒng)方法
系統(tǒng)采樣方法允許定量探索分子構(gòu)象空間,迭代方法(IM)試圖通過一個(gè)給定的構(gòu)象生成所有可能的構(gòu)象,通過給定增量控制探索所有可能的自由度。因此即使是小分子配體其構(gòu)型空間也是十分龐大的。
數(shù)據(jù)庫方法使用構(gòu)象數(shù)據(jù)庫,例如Flexibase。這種數(shù)據(jù)庫包含有每個(gè)配體的預(yù)計(jì)算的構(gòu)型,而不是計(jì)算所有可能的幾何結(jié)構(gòu),因此計(jì)算時(shí)間得以縮減。基于片段的方法(FBs)通過放置和連接策略或增量策略可以用于搜尋最優(yōu)構(gòu)象。放置和連接策略將配體剪切為片段并且在靶標(biāo)結(jié)合位點(diǎn)進(jìn)行拼接,然后對(duì)每個(gè)片段進(jìn)行能量最小化,最后連接所有片段成為新的配體。增量策略則通過取代第一個(gè)片段,能量最小化,然后添加下一個(gè)片段,再能量最小化,直到配體被完全重構(gòu)。分子剪切可能對(duì)最后的姿勢(shì)產(chǎn)生不可預(yù)期的影響。單個(gè)配體和整個(gè)分子之間的能量最小化可能不同,而重構(gòu)的分子可能將疊加所有片段的不精確度。
隨機(jī)方法
與系統(tǒng)方法不同,隨機(jī)方法用于只探索構(gòu)象空間的一小部分配體。這些方法使用偽隨機(jī)函數(shù)來生成構(gòu)象和 SFs 來指導(dǎo)他們探索構(gòu)象空間。最常用的方法是蒙特卡羅(MC) 、蟻群 (AN)、遺傳算法 (GA) 和粒子群優(yōu)化 (PSO) 。超參數(shù)的選擇影響隨機(jī)方法,從而導(dǎo)致一些相關(guān)領(lǐng)域的信息可能會(huì)被遺忘。
模擬方法
第二項(xiàng)挑戰(zhàn):結(jié)合打分
所有的對(duì)接軟件通過打分函數(shù)(SFs)對(duì)配體結(jié)合構(gòu)象進(jìn)行排序。SFs通常旨在估計(jì)結(jié)合的自由能。鑒于計(jì)算這種能量的確切值是計(jì)算密集型的,SFs得以產(chǎn)生足夠準(zhǔn)確的分?jǐn)?shù)來評(píng)估對(duì)接模擬。此外,SFs可用于指導(dǎo)采樣算法。不同的SFs可分為物理方法的、經(jīng)驗(yàn)方法的、基于先驗(yàn)知識(shí)的方法以及共識(shí)方法等。我們第一次對(duì)其打分函數(shù)的數(shù)學(xué)函數(shù)進(jìn)行了綜述,示例軟件和SFs見表1。
打分函數(shù)空間
SF可確定與給定蛋白結(jié)合的配體的最優(yōu)構(gòu)型。最初對(duì)蛋白空間的定義,僅根據(jù)序列來進(jìn)行,但是最合適的定義應(yīng)該是考慮蛋白相似結(jié)構(gòu)會(huì)趨于折疊在一起。因此,配體的化學(xué)空間可以考慮看成是所有小分子構(gòu)型的聚集體。每個(gè)復(fù)合體都可以看做一個(gè)包含蛋白質(zhì)空間的集合和化學(xué)空間的集合。第三個(gè)空間是SF空間,包含所有可能的評(píng)分函數(shù)。假設(shè)它存在至少一個(gè) SF空間項(xiàng)可以預(yù)測(cè)蛋白質(zhì)合集與化學(xué)空間合集之間的結(jié)合親和力。計(jì)算方法使這個(gè)空間成為探索所考慮蛋白質(zhì)的最佳 SF和化學(xué)子集。
基于物理的打分函數(shù)
Li 等人首次引入了基于物理的打分函數(shù)。其中最著名的是力場(chǎng)類SFs,這個(gè)子類通過幾個(gè)能量項(xiàng)的加權(quán)和來評(píng)估自由能。對(duì)這類函數(shù)的選取,取決于所使用的力場(chǎng)。最常見的能量術(shù)語是范德華力、靜電相互作用和氫鍵。可用力場(chǎng)種類很多,包括AMBER, GROMOS、OPLS和 CHARMM?;诹?chǎng)的SF可以使用單一力或不同力的組合。由于衡量原子距離和單獨(dú)計(jì)算結(jié)合與非結(jié)合的能量的準(zhǔn)確性較高,基于物理的打分函數(shù)被廣泛使用,例如其已實(shí)現(xiàn)在 AutoDock4中。基于物理的家族還包括了考慮了溶劑模型和量子力學(xué)的類型。前者添加溶劑化/去溶劑化影響以及扭轉(zhuǎn)熵,后者混合了量子力場(chǎng)和分子力場(chǎng)在合理的計(jì)算時(shí)間內(nèi)提高了SF精度。Li等人發(fā)現(xiàn)基于量子力學(xué)的SFs是目前最有前途的基于物理的打分函數(shù)。
經(jīng)驗(yàn)評(píng)分函數(shù)
與基于力場(chǎng)的方法類似,經(jīng)驗(yàn)方法估計(jì)束縛的自由能,但沒有大量的計(jì)算要求。這個(gè)估計(jì)是通過評(píng)估參數(shù)的加權(quán)和來實(shí)現(xiàn)的,例如氫鍵的數(shù)量,親疏水性接觸等。這些參數(shù)比力場(chǎng)參數(shù)簡(jiǎn)單,因而計(jì)算也更快。
基于知識(shí)的評(píng)分函數(shù)
以知識(shí)為基礎(chǔ)的SF依賴于對(duì)平均力勢(shì)(PMF)的闡述?;趶?fù)合物的大型3D結(jié)構(gòu)數(shù)據(jù)庫中分子間相互作用的統(tǒng)計(jì)分析發(fā)現(xiàn),考慮了新復(fù)合物中分子相互作用類型的函數(shù)要比只考慮了原子或者官能團(tuán)的打分函數(shù)要更為可靠。
共識(shí)打分函數(shù)
第三項(xiàng)挑戰(zhàn):計(jì)算時(shí)間
計(jì)算時(shí)間是采樣(巨大的探索空間)和評(píng)分(調(diào)用事件)的關(guān)鍵指標(biāo)。在這兩種情況下,算法的選擇及其實(shí)現(xiàn)都至關(guān)重要。在采樣方面,減少計(jì)算時(shí)間的方法是將配體對(duì)接在蛋白質(zhì)表面的一個(gè)劃定區(qū)域上(例如,通常使用以特定興趣點(diǎn)為中心的邊長(zhǎng)為20 ?的立方體)。因此,了解相互作用位點(diǎn)在靶上的定位至關(guān)重要,這往往與生物學(xué)結(jié)果有關(guān)。與此方法相關(guān)聯(lián)的缺點(diǎn)在于不可能輕易地將結(jié)果推廣到未定義或不同的系統(tǒng)。的確,如果已知配體結(jié)合在特定靶點(diǎn)的特定位點(diǎn)上,就不能保證新配體結(jié)合在同一位點(diǎn)上。同樣,局部搜索也不能轉(zhuǎn)置到新的目標(biāo)上。一些研究試圖在不需要任何先驗(yàn)知識(shí)的情況下,使用更苛刻的對(duì)接模擬,探索表面來克服這一缺陷,這種方法稱為“盲對(duì)接”。劃定區(qū)域的選擇顯著影響對(duì)接精度:如果該框不包含結(jié)合位點(diǎn)或僅包含其中一部分,那么對(duì)接將是錯(cuò)誤的。
此外,一些方法,如結(jié)合位點(diǎn)檢測(cè),通過預(yù)測(cè)目標(biāo)表面的假定結(jié)合位點(diǎn),允許在沒有先驗(yàn)信息的情況下對(duì)目標(biāo)使用劃定搜索。通常,這種搜索要么通過幾何搜索,如FPocket;要么通過尋找與束縛自由能有關(guān)的最有趣區(qū)域來完成,如Q-SiteFinder使用甲基作為探針來探測(cè)該區(qū)域。減少時(shí)間的另一種方法是使用集成對(duì)接方法,該方法集成實(shí)驗(yàn)數(shù)據(jù)來驅(qū)動(dòng)模型構(gòu)建。
數(shù)據(jù)
數(shù)據(jù)對(duì)于分子對(duì)接方法的發(fā)展具有關(guān)鍵作用,尤其是基于ML的方法。數(shù)據(jù)的數(shù)量和質(zhì)量,以及模型如何表示它們對(duì)性能和準(zhǔn)確性有重大影響。關(guān)于數(shù)據(jù)量,PDB數(shù)據(jù)庫提供了一個(gè)廣泛的分子復(fù)合物數(shù)據(jù)庫。
數(shù)據(jù)質(zhì)量
在開發(fā)用于分子對(duì)接的 ML 模型時(shí),重要的是在已建立的數(shù)據(jù)集上訓(xùn)練和驗(yàn)證模型而不是使用合成或增強(qiáng)的數(shù)據(jù)集。這保證了訓(xùn)練集的代表性、詳盡性和多樣性,并允許方法間進(jìn)行標(biāo)準(zhǔn)比較。常見的數(shù)據(jù)集包括:
PDBbind,該數(shù)據(jù)庫根據(jù)PDB數(shù)據(jù)庫每年更新新的復(fù)合體,2019版本的該數(shù)據(jù)庫包含3種不同的子版本:通用 (21382個(gè)), 重定義(4852個(gè)), 核心 (285個(gè))。
DUD和DUD-E數(shù)據(jù)庫,分別包含40和102個(gè)靶標(biāo)分子,2950和22886個(gè)活性配體數(shù)據(jù)。每個(gè)配體有36或者50個(gè)理化性質(zhì)接近但是拓?fù)浣Y(jié)構(gòu)不同的誘餌集。
MUV數(shù)據(jù)集,根據(jù)NIH PubChem數(shù)據(jù)庫收集了17個(gè)靶標(biāo)。
CSAR數(shù)據(jù)庫,一個(gè)對(duì)接復(fù)合物數(shù)據(jù)庫。
sc-PDB數(shù)據(jù)庫,基于PDB數(shù)據(jù)庫,同時(shí)收錄了蛋白質(zhì)結(jié)合位點(diǎn)信息的數(shù)據(jù)庫。
數(shù)據(jù)表示
數(shù)據(jù)表示是數(shù)據(jù)科學(xué)響應(yīng)到特定問題的核心部分。隨著技術(shù)的進(jìn)步,數(shù)據(jù)變得更加詳細(xì)并包含越來越復(fù)雜的信息。數(shù)據(jù)類型的選擇對(duì)對(duì)接性能有顯著影響。即使 3D 坐標(biāo)可以直接用作輸入,但是通常需要使用從3D坐標(biāo)收集到的,包括描述符、分子指紋或交互指紋、基于圖像或圖形等信息作為輸入源。
描述符是表示分子復(fù)合物最簡(jiǎn)單的方法。描述符是一種手工設(shè)計(jì)的能表征了分子復(fù)合物的保真度的信息源。描述符還可以反映物理化學(xué)性質(zhì),如某種類型的原子列表,給定閾值時(shí)配體與靶標(biāo)之間的原子對(duì)數(shù)目,或能量項(xiàng)。描述符也可以是幾何的,如果它們來源于分子的三維結(jié)構(gòu)。最后,這些描述符中的幾個(gè)組合通常用來表示一個(gè)復(fù)合體。這種描述符往往容易理解和可用,但描述符只能表征唯一的對(duì)象,這限制了模型性能。
指紋是分子或復(fù)合物的高級(jí)表示。第一類依賴于分子指紋,其中3D數(shù)據(jù)被轉(zhuǎn)換成1D數(shù)據(jù),通常是一串位、整數(shù)或字符?;瘜W(xué)式并不詳細(xì),結(jié)構(gòu)式雖然更詳細(xì),但卻不適合用于計(jì)算出發(fā)點(diǎn)。指紋可以表征2D結(jié)構(gòu),例如MACCS分子指紋,統(tǒng)計(jì)了額外的化學(xué)性質(zhì);指紋可以對(duì)3D結(jié)構(gòu)進(jìn)行編碼,例如FfuzCav,能表征蛋白結(jié)合位點(diǎn)的3D結(jié)構(gòu)與化學(xué)性質(zhì)。深度學(xué)習(xí)能夠和分子表面相互作用指紋(MaSIF)、結(jié)構(gòu)相互作用指紋(SIFt)和結(jié)構(gòu)性蛋白-配體相互作用指紋(SPLIF)一起編碼蛋白質(zhì)。這類指紋有著自動(dòng)編碼能力,是一類能夠降低輸入數(shù)據(jù)維度的降維算法。
深度學(xué)習(xí)(DL),特別是卷積神經(jīng)網(wǎng)絡(luò)(CNN )的出現(xiàn),使得以一種新的數(shù)據(jù)表示實(shí)際三維結(jié)構(gòu)成為可能。復(fù)合體首先在 3D 網(wǎng)格上離散化,其中網(wǎng)格的每個(gè)單元格,視為一個(gè)體素(體積像素)。原子稀疏地分布在格子。此外,體素具有通道(例如,圖像的 RGB)可以用屬性補(bǔ)充一組特征,例如原子類型、電荷和雜化。與經(jīng)典的指紋方法相比,基于圖像的數(shù)據(jù)表示更能反映包括3D結(jié)構(gòu)在內(nèi)的復(fù)雜性。即使很多信息都融入到這個(gè)表示中,它仍然簡(jiǎn)潔。然而,主要的缺點(diǎn)是這個(gè)數(shù)據(jù)表征對(duì)噪聲很敏感,因?yàn)榉肿釉谝粋€(gè)方向上的輕微轉(zhuǎn)動(dòng)會(huì)導(dǎo)致完全不同的數(shù)據(jù)點(diǎn)。此外,原子坐標(biāo)的離散可能會(huì)導(dǎo)致分子構(gòu)象的準(zhǔn)確性下降。這些問題可以部分固定下來,對(duì)第一個(gè)問題進(jìn)行數(shù)據(jù)增強(qiáng),對(duì)后者進(jìn)行更粗略的分子表征( 考慮殘基而不是原子 )。
配體-蛋白分子對(duì)接中的機(jī)器學(xué)習(xí)
ML可以通過優(yōu)化現(xiàn)有的SF (例如,細(xì)化經(jīng)驗(yàn)函數(shù)的權(quán)重)或以復(fù)合物的結(jié)構(gòu)為輸入開發(fā)新的SF來給復(fù)合物打分。此外,ML有時(shí)被用于虛擬篩選的分類模式和結(jié)合位點(diǎn)檢測(cè)。一旦選擇數(shù)據(jù)集并確定數(shù)據(jù)表示,就可以進(jìn)行ML模型的開發(fā)。ML在分子對(duì)接中的應(yīng)用發(fā)展迅速,前十年出現(xiàn)了眾多方法都帶來了對(duì)對(duì)接性能的顯著的改進(jìn)。
表2.配體-蛋白對(duì)接中的機(jī)器學(xué)習(xí)
在此,我們對(duì)配體-蛋白質(zhì)分子對(duì)接中使用的ML方法進(jìn)行了全面的綜述,介紹了用于打分、分類( VS模式)和結(jié)合位點(diǎn)檢測(cè)的功能?,F(xiàn)有研究提供了一個(gè)全面的領(lǐng)域整體視圖,ML和DL見表2和表3。盡管ML已有十多年的歷史,但ML方法被引入了分子對(duì)接領(lǐng)域也不過是最近才開始的。
表3.配體-蛋白對(duì)接中的深度學(xué)習(xí)
線性回歸
ML最基本的用途是線性回歸,它決定了線性方程組的權(quán)重。例如,分析結(jié)合親和力的工具( TABA )將配體-蛋白質(zhì)相互作用表示為一組質(zhì)量-彈簧接觸,然后使用ML方法對(duì)復(fù)合物的親和力方程進(jìn)行參數(shù)化。
隨機(jī)森林方法
隨機(jī)森林( RF )是第一次嘗試使用ML方法進(jìn)行分子對(duì)接。RF是一種集成方法,它建立在決策樹集成的結(jié)果之上并使其平滑。每個(gè)樹都是用節(jié)點(diǎn)構(gòu)建的,這些節(jié)點(diǎn)表示基于單個(gè)且唯一標(biāo)準(zhǔn)。此外,對(duì)不同隨機(jī)化子集的訓(xùn)練減少了方差,從而改善了過擬合問題,這種方法也被稱為"裝袋"方法。
最開始的RF-Score以一組描述子作為輸入,描述了參與對(duì)接的兩個(gè)分子的原子對(duì)數(shù)量。如果兩個(gè)原子之間的距離小于某個(gè)臨界值(這是一個(gè)超參數(shù)),則配對(duì)是守恒的,并且原子屬于這些類型之一:C、N、O、S、P、F、Cl、Br或則I。RF-Score更新了兩次,最后一次更新采用了來自AutoDock Vina的打分函數(shù)的能量項(xiàng)來提高對(duì)復(fù)合物的描述。三個(gè)版本都使用一套500棵樹來運(yùn)行它們的模型。2017年,針對(duì)DUD-E數(shù)據(jù)集,在RF-score-VS的名字下訓(xùn)練了同一組模型,用以對(duì)復(fù)合物進(jìn)行分離,而不是對(duì)復(fù)合物結(jié)合力進(jìn)行打分。與RF-Scores相比,SIEVE-Scores在1000棵隨機(jī)樹上進(jìn)行了搜索,并使用殘基進(jìn)行表征:對(duì)于目標(biāo)物中的每個(gè)殘基,計(jì)算了與配體的三個(gè)相互作用能(范德華力、庫侖力和氫鍵)。復(fù)合物由一個(gè)大小為3*nres的向量表示,其中nres為殘基數(shù),稱為復(fù)合物的相互作用指紋。這種方法簡(jiǎn)單有力,但仍然存在問題,因?yàn)榭勺冮L(zhǎng)度的輸入向量往往對(duì)許多ML模型是有限的。
梯度提升樹法
在梯度提升樹法中,子模型是按順序訓(xùn)練的,而不是同時(shí)從其前件的殘差集中訓(xùn)練。它是知識(shí)蒸餾的一種形式,與標(biāo)準(zhǔn)的“裝袋”相比,它經(jīng)常顯示出更好的結(jié)果。2019年,Nguyen等人提出了代數(shù)圖學(xué)習(xí)分?jǐn)?shù)( AGL-score ),采用多尺度、多類權(quán)重著色的子圖數(shù)據(jù)表征。整個(gè)分子是一個(gè)圖,其中節(jié)點(diǎn)的屬性表示原子的選擇類型和空間位置,邊表示非共價(jià)鍵,如連接原子之間的范德華鍵或氫鍵。該圖一旦建立,就會(huì)從鄰接矩陣( 或拉普拉斯矩陣 )的特征值中產(chǎn)生一系列的描述統(tǒng)計(jì),并作為輸入向量訓(xùn)練一個(gè)提升樹。
支持向量機(jī)方法
在DL發(fā)展之前,支持向量機(jī)( SVM)是一類流行的ML算法。首先引入分類問題后,然后將支持向量機(jī)作為模型用于回歸,也就是所謂的支持向量機(jī)回歸模型(SVR)。該模型不僅分離類,而且最大化最接近其中心的元素之間的間隔。與核方法相結(jié)合,它們是一種能夠解決非線性問題的工具。Li等人介紹了兩種此類模型。第一種是基于知識(shí)的成對(duì)潛在向量( SVR-KB )。另一種方法是將一組物理化學(xué)描述符(范德華能量、配體包埋表面積和疏水效應(yīng))作為輸入。IDScore是另一個(gè)用于得分的SVR。該方法基引入了使用額外的描述符,如金屬-配體鍵合相互作用或去溶劑化效應(yīng)。最后,PLEIC-SVM是一個(gè)特定靶標(biāo)的虛擬篩選的支持向量機(jī)模型,它依賴于蛋白質(zhì)-配體實(shí)證交互組分指紋。每個(gè)目標(biāo)物的殘基計(jì)算了三個(gè)值:范德華相互作用、疏水作用和氫鍵。然后將所有殘基特征向量串聯(lián)起來,以產(chǎn)生用作SVM輸入的復(fù)合物的特征向量。
多層感知器方法
多層感知器 ( MLP )是一種前向結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò),映射一組輸入向量到一組輸出向量。MLP可以被看作是一個(gè)有向圖,由多個(gè)的節(jié)點(diǎn)層所組成,每一層都全連接到下一層。除了輸入節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)都是一個(gè)帶有非線性激活函數(shù)的神經(jīng)元。一種被稱為反向傳播算法的監(jiān)督學(xué)習(xí)方法常被用來訓(xùn)練MLP。
NNscore v1是將人工神經(jīng)網(wǎng)絡(luò)引入分子對(duì)接的首次嘗試。它是一個(gè)簡(jiǎn)單的前饋MLP,輸入向量為194個(gè)特征(包括基本的成對(duì)原子結(jié)合、能量項(xiàng)或可旋轉(zhuǎn)鍵的數(shù)量)、單個(gè)5單元隱藏層和分類輸出層( "好"或 "差"粘合劑 )。一年后,它的v2使用了來自Vina的SF的能量項(xiàng)作為主要描述符,并添加了來自BINding ANAlyser的特性(包括v1的描述符)。此外,網(wǎng)絡(luò)被重寫以處理回歸(一個(gè)輸出神經(jīng)元),具有更好的容量(隱藏層推至十個(gè)神經(jīng)元)。2020年,Gentille等人引入了深度對(duì)接(Deep Docking ),其中標(biāo)簽是通過與一組特定蛋白質(zhì)在ZINC15配體數(shù)據(jù)庫的子集上進(jìn)行分子對(duì)接產(chǎn)生的。由于沒有提到網(wǎng)絡(luò)拓?fù)洌虼耸褂靡唤M物理化學(xué)描述符代替。深度對(duì)接需要摩根指紋表征配體結(jié)構(gòu),利用ZINC15訓(xùn)練網(wǎng)絡(luò),對(duì)其他配體進(jìn)行結(jié)合與非結(jié)分類。
卷積神經(jīng)網(wǎng)絡(luò)方法
卷積神經(jīng)網(wǎng)絡(luò)(CNN)由卷積層和捕捉空間相關(guān)性的工具組成。通過滑動(dòng)跨層輸入來學(xué)習(xí)過濾器權(quán)值,以建立原始數(shù)據(jù)的相關(guān)抽象表示
AtomNet是一種商業(yè)化的分子對(duì)接軟件,也是最早依賴CNN的軟件之一。它使用了一個(gè)三維網(wǎng)格,其中每個(gè)單元代表一些基本的結(jié)構(gòu)特征(例如原子類型或SPLIF,SIFt指紋)。該網(wǎng)絡(luò)的輸入是一個(gè)矢量化網(wǎng)格,邊長(zhǎng)為20 ?,間距為1 ?,有4個(gè)卷積層,其次是兩個(gè)共1024個(gè)神經(jīng)元的隱含層。采用邏輯回歸對(duì)兩類輸入進(jìn)行分類。對(duì)于DeepVS,也是CNN,Pereira等人為每個(gè)復(fù)合體的原子定義了具有上下文(原子類型、原子部分電荷、氨基酸類型和鄰近距離)的初始原子特征集。為了補(bǔ)償變動(dòng)的輸入大小,網(wǎng)絡(luò)整合了查找表。結(jié)果向量是一個(gè)固定大小的浮動(dòng)數(shù)組,用于匯總輸入數(shù)據(jù)。然后由單個(gè)2D卷積層進(jìn)行處理,提取抽象信息和利用兩個(gè)經(jīng)典層產(chǎn)生分類。Ragoza等人介紹了一個(gè)基于CNN的打分函數(shù),采用了類似的 3D 網(wǎng)格圖像。這里的新穎之處在于,每個(gè)原子都用圍繞原子中心的不確定度分布來表示,而不是固定值。該網(wǎng)絡(luò)由三個(gè)塊(卷積和池化)組成,然后是一個(gè)全連接(FC)的二進(jìn)制分類層。
原子卷積神經(jīng)網(wǎng)絡(luò)通過以下兩種類型的獨(dú)特操作來構(gòu)建:原子類型專用的1x1的過濾器卷積和跨原子近鄰過濾器的徑向池化。該方法以原子坐標(biāo)和原子類型作為輸入,前者構(gòu)建原子間距離矩陣,后者用于構(gòu)建原子類型矩陣。第一層(原子卷積)將矩陣相互結(jié)合,然后利用徑向池化層對(duì)矩陣進(jìn)行降維。最后,一個(gè)原子FC層將特征體積(特征矢量)拉平,接著是兩個(gè)FC層,產(chǎn)生最終的回歸輸出。早先的工具聚焦于對(duì)接打分和分類,DeepSite則致力于發(fā)現(xiàn)潛在的結(jié)合位點(diǎn),3D輸入蛋白質(zhì)網(wǎng)格沿著通道軸增加了8個(gè)物理化學(xué)描述符,網(wǎng)絡(luò)是一個(gè)標(biāo)準(zhǔn)的CNN,產(chǎn)生潛在的回歸得分。DenseFS它結(jié)合了Ragoza的數(shù)據(jù)表示和一個(gè)稱為密集連接卷積網(wǎng)絡(luò)( DenseNet )的跳連接網(wǎng)絡(luò)。Stepniewska-Dziubinska 等人設(shè)計(jì)了名為Pafnucy的工具,它采用一個(gè)經(jīng)典的CNN來從一個(gè)初始的4D張量(在3D網(wǎng)格和19個(gè)特征上離散的3D坐標(biāo))估計(jì)配體和靶標(biāo)之間的親和力,該網(wǎng)絡(luò)包括三個(gè)卷積層,然后是產(chǎn)生綁定分?jǐn)?shù)的三個(gè)FC層。DeepAffinity是圍繞遞歸神經(jīng)網(wǎng)絡(luò)( RNNs )設(shè)計(jì)的另一個(gè)用于評(píng)分的特異網(wǎng)絡(luò),它采用了配體的SMILES表征,而靶標(biāo)嵌入則是一個(gè)稱為結(jié)構(gòu)屬性序列的字符串。這兩個(gè)詞被獨(dú)立地磨成一個(gè)序列對(duì)序列模型,它們的潛在向量被一維卷積層處理,然后在FC層產(chǎn)生親和力得分之前進(jìn)行級(jí)聯(lián)。
在DeepBindRG中, Zhang等人巧妙地將輸入復(fù)合體轉(zhuǎn)出可投影的二維圖像,并殘差網(wǎng)絡(luò)( ResNet )計(jì)算以產(chǎn)生親和力評(píng)分。在OnionNet中, Zheng等人提出了一種多層分子間接觸理論,在這種接觸中,一系列殼層圍繞一個(gè)中心原子構(gòu)筑,在每個(gè)洋蔥層內(nèi)部,都有一個(gè)相關(guān)的特征集(取決于其封裝原子)。這允許作者考慮非局域相互作用。8個(gè)原子類型( 共 64對(duì) )和60個(gè)殼層堆疊在一起,總共有3840個(gè)特性。該模型由三個(gè)卷積層和三個(gè)全連接卷積神經(jīng)網(wǎng)絡(luò)組成。FRSite是預(yù)測(cè)蛋白結(jié)合位點(diǎn)工具。它需要一個(gè)包含8個(gè)常用通道的3D網(wǎng)格來表示目標(biāo)。作者使用了一個(gè)特別的3D CNN模型。這個(gè)網(wǎng)絡(luò)被分成三個(gè)子網(wǎng)絡(luò):第一個(gè)是3D CNN特征提取器,它的輸出反饋給網(wǎng)絡(luò)的第二和第三部分。第二部分是一個(gè)3D區(qū)域提案網(wǎng)絡(luò),它允許提取假定的結(jié)合位點(diǎn)。最后,將第一部分和第二部分的輸出交給第三部分,對(duì)產(chǎn)生的位點(diǎn)進(jìn)行分類。
Francoeur等人擴(kuò)展了Ragoza等人的工作,采用相同的輸入數(shù)據(jù)表示和通用模型架構(gòu),但進(jìn)行了全面的超優(yōu)化,以產(chǎn)生更多的卷積層和平均池化代替最大池化。Pafnucy的作者也研究了與Pafnucy使用的相同蛋白質(zhì)表示的結(jié)合位點(diǎn)檢測(cè),提出了Kalasanty90,其中蛋白質(zhì)在三維網(wǎng)格上離散,每個(gè)原子使用18個(gè)描述符。受語義圖像分割的啟發(fā),Stepniewska- Dziubinska等人使用U-Net來識(shí)別潛在的結(jié)合位點(diǎn)。DeepSurf的作者對(duì)Kalasanty數(shù)據(jù)表述進(jìn)行了修改:作者沒有像原論文那樣對(duì)所有分子原子進(jìn)行離散,而是從溶劑可及表面網(wǎng)格中只選擇了幾個(gè)感興趣的點(diǎn)。然后將每個(gè)點(diǎn)鄰域離散在與Kalasanty相同特征的三維網(wǎng)格上。最后,生成的模型是ResNet的一個(gè)進(jìn)階版模型。
圖神經(jīng)網(wǎng)絡(luò)
圖神經(jīng)網(wǎng)絡(luò)( Graph Neural Networks,GNNs )是工作在格式化-圖像數(shù)據(jù)上的多種神經(jīng)網(wǎng)絡(luò)。它們已經(jīng)從光譜方法發(fā)展成為一種更加靈活的綜合建模工具。圖卷積網(wǎng)絡(luò)( GCNs )是一類特殊的GNNs,將卷積和池化操作從CNNs應(yīng)用到圖形中。
第一種利用圖數(shù)據(jù)進(jìn)行分子對(duì)接的方法是PotentialNet,它不再只考慮共價(jià)鍵,而是考慮每一種鍵型都有一個(gè)鄰接矩陣的額外鍵,沿著通道連接成三維鄰接矩陣。此外,它使用一個(gè)距離矩陣表示每個(gè)原子對(duì)之間的距離。該模型網(wǎng)絡(luò)是一個(gè)GCN模型,并且分裂為三個(gè)階段:在第一階段,只用共價(jià)鍵進(jìn)行傳播;然后,利用共價(jià)鍵和非共價(jià)鍵進(jìn)行傳播,最后是一個(gè)“圖聚集”步驟,通過求和來聚集矩陣行,接著是一個(gè)FC層,用來產(chǎn)生結(jié)合分?jǐn)?shù)。Lim等人引入了帶有門控增強(qiáng)注意層( GAT )的GNN。對(duì)于每個(gè)節(jié)點(diǎn),除了規(guī)則的邊外,鄰近的原子((5 ?)也被認(rèn)為是相連的。該方法通過三個(gè)矩陣發(fā)揮功能:第一個(gè)是節(jié)點(diǎn)特征矩陣,第二個(gè)是僅共價(jià)鍵的鄰接( 在配體和蛋白質(zhì)中 ),第三個(gè)是分子間相互作用的鄰接(包含第二個(gè)矩陣)。在網(wǎng)絡(luò)的每一步中,節(jié)點(diǎn)特征矩陣由一個(gè)GAT更新,第二個(gè)矩陣由另一個(gè)GAT更新,使用第三個(gè)矩陣。然后,從第一個(gè)節(jié)點(diǎn)減去第二個(gè)更新的節(jié)點(diǎn)特征矩陣。在附加步驟之后,所有節(jié)點(diǎn)特征向量被求和,并且一個(gè)FC層使用這個(gè)向量對(duì)復(fù)雜的節(jié)點(diǎn)進(jìn)行分類。
Torgn等人提出了一種虛擬篩選方法,用兩個(gè)圖來表示靶標(biāo)和配體。在靶標(biāo)側(cè),圖節(jié)點(diǎn)為結(jié)合位點(diǎn)處的氨基酸殘基,用邊連接7 ?的球體范圍內(nèi)的對(duì)象,利用從FEATURE程序中提取特征。配體圖是經(jīng)典的二維分子圖。訓(xùn)練過程分為兩步:第一步編碼結(jié)合位點(diǎn)圖,進(jìn)行降維。此編碼器保留到第二步,將其輸出級(jí)聯(lián)到配體圖上訓(xùn)練的第二個(gè)GCN。結(jié)果反饋給FC層和一個(gè)“Softmax”分類器。Tanebe等人使用GNNs對(duì)粘結(jié)劑的好壞進(jìn)行分類。這種方法由SMILES字符串生成的圖表示配體,其中節(jié)點(diǎn)為原子,邊為鍵。靶標(biāo)也是一個(gè)圖形,其中節(jié)點(diǎn)是氨基酸殘基,五種邊類型只取決于每個(gè)殘基的αC之間的距離。然后,一個(gè)GNN嵌入這兩個(gè)圖,由此產(chǎn)生的級(jí)聯(lián)被用來對(duì)復(fù)合物進(jìn)行分類。在Tsubaki等的方法中,作者利用配體的SMILES表示產(chǎn)生一個(gè)圖和一個(gè)GNN,然后將這個(gè)圖嵌入到一個(gè)向量中。對(duì)于靶標(biāo),氨基酸序列由CNN嵌入,然后將兩者級(jí)聯(lián),再利用一個(gè)FC做出預(yù)測(cè)。最近,Morrone等人利用GCN模型提出了一種新的求解對(duì)接問題的DL方法。第一個(gè)代表共價(jià)配體圖( L )。第二個(gè)圖是在一個(gè)4 ?范圍內(nèi),從蛋白質(zhì)原子跳到配體原子所構(gòu)建的接觸圖(LP)。這種模塊化方法可以以L,LP,或L + LP作為輸入。在每種情況下,輸入由一個(gè)GCN嵌入,并反饋給CNN進(jìn)行預(yù)測(cè)。
網(wǎng)絡(luò)體系結(jié)構(gòu)的比較
性能評(píng)估
到目前為止,我們只注重模型構(gòu)建,但數(shù)據(jù)集不僅可以用于模型訓(xùn)練,而且可以用于評(píng)估和評(píng)估所使用的方法。因此,我們?cè)谶@里給出分類方法、打分函數(shù)和結(jié)合位點(diǎn)檢測(cè)的性能評(píng)價(jià)指標(biāo)。
虛擬篩選評(píng)估
除了數(shù)據(jù)集之外,作者還使用一系列的度量指標(biāo)與其他現(xiàn)有的貢獻(xiàn)要素進(jìn)行比較。在虛擬篩選(VS)中,模型的性能通過對(duì)其區(qū)分結(jié)合配體和非結(jié)合配體的能力進(jìn)行評(píng)價(jià)。一般采用受試者工作特性曲線( ROC )的富集因子( EF )或曲線下面積( AUC )來判斷。EF評(píng)估選擇的配體是否比隨機(jī)選擇的配體更好,EF的值為正實(shí)數(shù):一個(gè)較差的分類器它的EF≤1,而一個(gè)優(yōu)于隨機(jī)選擇的分類器它的EF > 1。相比之下,ROC曲線可根據(jù)模型的不同閾值來直觀地評(píng)估分類器的質(zhì)量。對(duì)于AUC,最佳AUC值為1.0,最差為0.0 隨機(jī)值則取0.50。
表4詳細(xì)介紹了各種方法的AUC性能,包括從文獻(xiàn)中提取的方法。這個(gè)表格同時(shí)也反應(yīng)了對(duì)VS性能得出一個(gè)簡(jiǎn)單結(jié)論的困難。數(shù)據(jù)集是在試圖比較純性能時(shí)出現(xiàn)的第一個(gè)問題。第二,大多數(shù)方法不是自我支持的,需要其他經(jīng)典抽樣軟件的輔助。因此,即使在同一數(shù)據(jù)集上評(píng)估了兩種方法,它們的性能也會(huì)受到所選采樣方法的影響。此外,盡管抽樣方法在理論上是相同的,但它們?cè)趨?shù)初始化上可能存在差異,正如Shen等所解釋的那樣。因此,我們必須使用同一篇文章中給出的原始性能來比較方法。例如,根據(jù)Lim等的數(shù)據(jù),Lim的方法比AtomNet和Ragoza的方法好。
表4.使用DUD,DUD-E和MUV數(shù)據(jù)集評(píng)估虛擬篩選方法
打分函數(shù)比較
Su等開發(fā)的評(píng)分函數(shù)比較評(píng)估(CASF )引入了3個(gè)標(biāo)準(zhǔn)來評(píng)估SF方法:評(píng)分性能、排序性能、對(duì)接性能。評(píng)分反映了一個(gè)SF'在與實(shí)驗(yàn)結(jié)合數(shù)據(jù)線性相關(guān)的情況下產(chǎn)生結(jié)合分?jǐn)?shù)的能力’,它使用皮爾遜相關(guān)系數(shù)( Rp )和線性回歸標(biāo)準(zhǔn)差( SD )來衡量這一性能。Rp可以在-1到+1之間。越接近1,評(píng)估的方法越好。對(duì)于SD,則越小越好,Rp和SD是最常用的比較標(biāo)準(zhǔn)。
排序性能是指一個(gè)打分函數(shù)在給定靶標(biāo)以及正確的結(jié)合模式下對(duì)結(jié)合結(jié)合親和力正確排序的能力,使用斯皮爾曼系數(shù)(p),肯德爾等級(jí)相關(guān)系數(shù) (τ)以及預(yù)測(cè)指數(shù)(PID)來評(píng)估。排序性能評(píng)分在[-1,1]區(qū)間內(nèi),-1表示性能差,而1表示性能優(yōu)越。
對(duì)接性能表示打分函數(shù)在電腦生成的誘騙集中正確識(shí)別結(jié)合模式的能力。使用RMSD值進(jìn)行衡量,其公式如下圖所示。通常一個(gè)成功的對(duì)接該值應(yīng)該小于等于2 ?。
CASF數(shù)據(jù)集與對(duì)應(yīng)年份的PDBbind核心集相同。表5列出了打分能力的方法評(píng)估示例。與表4相比,表5中的條目更具可比性:為了評(píng)估一個(gè)SF,作者使用了被對(duì)接復(fù)合物的數(shù)據(jù)集。采樣步驟是不必要的,評(píng)估只因所用數(shù)據(jù)集而異。但是,可供選擇的數(shù)據(jù)集種類繁多,每一個(gè)都有幾個(gè)子集和版本( 例如 , PDBbind )。如果使用的數(shù)據(jù)集相同,則可以比較它們各自的性能。例如,OnionNet在PDBbind 2017核心集上的Rp評(píng)分優(yōu)于弗朗克爾的方法。
表5.打分函數(shù)比較
結(jié)合位點(diǎn)預(yù)測(cè)比較
評(píng)估結(jié)合位點(diǎn)方法主要有兩種選擇。首先,我們可以利用已經(jīng)對(duì)接的配體-蛋白質(zhì)復(fù)合物( 例如 , PDBbind )的數(shù)據(jù)集,預(yù)測(cè)蛋白質(zhì)的結(jié)合位點(diǎn)。然后,對(duì)于每個(gè)復(fù)合物,如果至少有一個(gè)預(yù)測(cè)的蛋白質(zhì)位點(diǎn)是真正的結(jié)合位點(diǎn),則可以認(rèn)為方法輸出是成功的。如果結(jié)合位點(diǎn)組成未知,這種方法則值得商榷。
但是,前面提到的所有方法都使用了sc-PDB數(shù)據(jù)集進(jìn)行訓(xùn)練和評(píng)估。該數(shù)據(jù)集包含原子組成的位點(diǎn),一旦預(yù)測(cè)的位點(diǎn)被定義,原子組成就可以比較。作者使用了兩個(gè)度量:到真實(shí)結(jié)合位點(diǎn)中心的度量與預(yù)測(cè)位點(diǎn)最近原子之間的距離,或者真實(shí)結(jié)合位點(diǎn)中心與預(yù)測(cè)位點(diǎn)中心之間的距離。在這兩種情況下,度量在閾值在4到20之間波動(dòng),數(shù)值越大,方法越好。
結(jié)論
在這里,我們討論了機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí)如何幫助我們解決分子對(duì)接面臨的挑戰(zhàn)。我們提出了三個(gè)挑戰(zhàn):抽樣、評(píng)分和計(jì)算時(shí)間。然而,就取樣挑戰(zhàn)而言,試圖解決這一問題的ML方法尚未開發(fā)。毫無疑問,得分挑戰(zhàn)是研究最多的問題。事實(shí)上,ML評(píng)分方法在評(píng)分函數(shù)空間探索方面是有趣的。許多ML方法已經(jīng)被開發(fā)出來,并且大多數(shù)優(yōu)于經(jīng)典方法。因此,基于機(jī)器學(xué)習(xí)的打分函數(shù)可以看作是基于知識(shí)和經(jīng)驗(yàn)函數(shù)的混合。事實(shí)上,與基于知識(shí)的方法類似,ML方法從一個(gè)綜合數(shù)據(jù)庫中提取統(tǒng)計(jì)數(shù)據(jù)來構(gòu)建最相關(guān)的模型。相反,ML方法使用相對(duì)簡(jiǎn)單的輸入并在它們之間找到鏈接。對(duì)于以優(yōu)化網(wǎng)絡(luò)權(quán)重為目標(biāo)的DL方法更為明顯,這與經(jīng)驗(yàn)函數(shù)的目標(biāo)類似,雖然他們不是主要的焦點(diǎn)。
本文的研究表明,無論是評(píng)分還是分類,ML方法都優(yōu)于經(jīng)典方法。此外,最近提出的GNN方法具有有趣的性能,但仍需對(duì)這些方法進(jìn)行更深入的研究。最后一個(gè)挑戰(zhàn)是計(jì)算時(shí)間。在計(jì)算所需時(shí)間方面,沒有一種ML評(píng)分方法能夠與其他方法相比,這使得在減少時(shí)間方面討論ML的能力變得困難。但可以使用劃定搜索來減少計(jì)算時(shí)間;本文提出了一些預(yù)測(cè)結(jié)合位點(diǎn)的ML方法,并與經(jīng)典的結(jié)合位點(diǎn)檢測(cè)方法進(jìn)行了比較。因此,我們認(rèn)為GNNs是改進(jìn)現(xiàn)有ML方法的一個(gè)有趣的方法。值得一提的是,大多數(shù)方法沒有在一個(gè)完整的對(duì)接管道中提及和評(píng)估;因此,將諸如Auto-Dock之類的經(jīng)典方法與ML工作流進(jìn)行比較會(huì)很有趣。此外,ML方法的訓(xùn)練和推斷次數(shù)很少被作者提及。我們認(rèn)為這些信息應(yīng)該包括在未來的研究中,因?yàn)樗鼮榉治鲞@些模型的復(fù)雜性提供了寶貴的見解。
參考資料
聯(lián)系客服