基于機器學(xué)習(xí)算法的AI模型需要持續(xù)地通過數(shù)據(jù)來迭代、優(yōu)化以提升其在藥物研發(fā)中計算性能和預(yù)測結(jié)果的精度。近些年來,可用于算法訓(xùn)練的數(shù)據(jù)量在迅速增加,但總體來說,這些數(shù)據(jù)的質(zhì)和量仍存在不少挑戰(zhàn),比如特定任務(wù)可用的數(shù)據(jù)過少、負(fù)樣本數(shù)據(jù)缺失等,這些因素制約了AI藥物發(fā)現(xiàn)領(lǐng)域的發(fā)展。另一方面,這些數(shù)據(jù)資源通常分布于不同的制藥公司、生物技術(shù)公司、科研院校和醫(yī)療機構(gòu)之中,對于他們來說,數(shù)據(jù)的產(chǎn)生與積累來之不易,代價高昂,如果按照傳統(tǒng)的方法來分享數(shù)據(jù),數(shù)據(jù)極有可能被數(shù)據(jù)使用方分享和留存,造成數(shù)據(jù)資產(chǎn)泄露和流失。這些涉及數(shù)據(jù)資產(chǎn)安全和隱私合規(guī)保護(hù)方面的問題,給AI藥物發(fā)現(xiàn)公司與數(shù)據(jù)源方的數(shù)據(jù)協(xié)作帶來了重重困難。
那么,近年來受到廣泛關(guān)注的隱私安全計算技術(shù)是否可以安全、高效地促進(jìn)數(shù)據(jù)的協(xié)作,賦能AI藥物發(fā)現(xiàn)呢?
曾總好!請先介紹下燧坤智能是一家什么樣的公司?
曾亥年:燧坤智能是一家致力于運用人工智能和機器學(xué)習(xí)方法系統(tǒng)性賦能創(chuàng)新生物醫(yī)藥研發(fā)的新一代平臺型技術(shù)公司。我們一直與生物醫(yī)藥行業(yè)內(nèi)的同行們保持密切合作,以終為始不斷開發(fā)優(yōu)化AI模型,完善一體化AI+生物醫(yī)藥研發(fā)平臺流程,解決生物醫(yī)藥行業(yè)面臨的候選藥物發(fā)現(xiàn)階段成本高、成功率低、周期長及臨床開發(fā)風(fēng)險高等問題,研發(fā)具有全球競爭力的高價值候選藥物。公司擁有算法模型等多項自主知識產(chǎn)權(quán),是國家高新技術(shù)企業(yè)。
是否可以簡單介紹下燧坤智能的主要特點?
你們在將AI技術(shù)應(yīng)用于藥物發(fā)現(xiàn)的過程中,有哪些重要案例,是否可以分享?
曾亥年:好的,這里我們有3個重要的案例,可以給大家介紹下。
第一個案例是針對小分子難成藥靶點,我們在3個小時完成百萬級別的化合物庫虛擬篩選,僅測試100個分子,就獲得3個全新結(jié)構(gòu)、全新機制的小分子別構(gòu)激動劑,提升一萬倍的效率。
第二個案例是針對新冠,我們在1周時間內(nèi)完成老藥新用的篩選工作,針對2000萬篇文獻(xiàn)完成自動化標(biāo)注以及候選藥物的富集,通過CMap完成新冠老藥新用的篩選,經(jīng)過2個月完成實驗驗證工作,找到活性類似于瑞德西韋(美國緊急授權(quán)且應(yīng)收數(shù)十億美元)的老藥。
數(shù)據(jù)是AI藥物發(fā)現(xiàn)的核心資源,那么,近年來受到廣泛關(guān)注的隱私安全計算,是否是數(shù)據(jù)方對外合作的一個安全有效的方案?
曾亥年:數(shù)據(jù)是人工智能領(lǐng)域一個非常重要的組成部分,任何數(shù)據(jù)持有者對于數(shù)據(jù)的分享(無論是用于模型訓(xùn)練還是模型驗證)都是比較謹(jǐn)慎的。我們在跟合作方去溝通交流的時候,合作方對于數(shù)據(jù)分享經(jīng)常存在顧慮。
隱私安全計算,是我們對外合作的時候一個比較好的選擇。我們有一些合作方是愿意分享數(shù)據(jù)的,但對于大多數(shù)不太愿意分享數(shù)據(jù)的合作方,我們就可以使用隱私安全計算來打消對方做數(shù)據(jù)協(xié)作的顧慮。
那這個方法它好在哪里呢?隱私安全計算可以同時保護(hù)模型和同時保護(hù)數(shù)據(jù),也就是提供一個雙向的保護(hù)。
使用隱私安全計算,我們在和數(shù)據(jù)持有方合作的時候,他們授權(quán)給我們使用的數(shù)據(jù),我們并不能看到他們的明文數(shù)據(jù),也就是數(shù)據(jù)可用不可見的形式,同時他們也看不到我們具體模型的代碼,對雙方的資產(chǎn)都提供了很好的保護(hù)。而在這個合作過程中,我們作為模型方,依然可以使用數(shù)據(jù)方的數(shù)據(jù)針對特定的靶點做虛擬篩選和化合物排序。
是否可以介紹下,你們跟翼方健數(shù)在隱私安全計算方面是如何協(xié)作的,取得了什么樣的成果?
曾亥年:在“2021人工智能藥物研發(fā)論壇”上,關(guān)于跟翼方健數(shù)的合作,我們做過一些展示。
合作是這樣的。首先,我們測試了翼方健數(shù)的隱私安全計算平臺,確保這個平臺可以運行,可以安全地進(jìn)行模型運算;然后,我們將數(shù)據(jù)合作方引入到翼方健數(shù)的平臺,數(shù)據(jù)方在這個平臺上面,做了一系列的加密計算,拿到了運算結(jié)果。在這個過程中,數(shù)據(jù)方的數(shù)據(jù)資產(chǎn)和我們的模型代碼均得到了充分保護(hù)。
目前隱私安全計算在藥物研發(fā)中的應(yīng)用,有哪些最新進(jìn)展?
曾亥年:隱私安全計算技術(shù)在藥物研發(fā)的應(yīng)用,除了剛才提到的安全沙箱計算以外,聯(lián)邦學(xué)習(xí)是另一種常用的技術(shù)。聯(lián)邦學(xué)習(xí)可以讓多個數(shù)據(jù)協(xié)作方在不共享原始數(shù)據(jù)的前提下,共享數(shù)據(jù)的價值。在聯(lián)邦學(xué)習(xí)中,參與數(shù)據(jù)協(xié)作的各方能夠通過模型運算產(chǎn)生模型的參數(shù)梯度,每個數(shù)據(jù)節(jié)點會將此梯度回傳到中心節(jié)點安全地聚合,通過一個最終迭代的過程,最終形成優(yōu)于單個節(jié)點訓(xùn)練的模型結(jié)果。這個過程中,每個節(jié)點回傳的是模型訓(xùn)練的中間結(jié)果,而不是原始數(shù)據(jù)本身。因此,聯(lián)邦學(xué)習(xí)可以打通數(shù)據(jù)孤島,使得多方數(shù)據(jù)安全協(xié)作、共同訓(xùn)練一個更好的模型成為可能。近期用到該技術(shù)的一個著名的案例是歐洲的MELLODDY項目。正是因為使用了聯(lián)邦學(xué)習(xí)技術(shù),使得高度競爭的10家知名大型制藥公司之間的數(shù)據(jù)協(xié)作成為了可能。
在國內(nèi),除了聯(lián)邦學(xué)習(xí)的應(yīng)用外,有平臺聯(lián)盟的模式正在形成中。例如,由中國科學(xué)院上海營養(yǎng)與健康研究所等機構(gòu)牽頭成立的長三角生物醫(yī)學(xué)產(chǎn)業(yè)大數(shù)據(jù)聯(lián)盟,就采用了翼方健數(shù)的智數(shù)坊平臺聯(lián)盟技術(shù)。基于不同隱私計算平臺達(dá)成數(shù)據(jù)聯(lián)盟的方式,將極大地促進(jìn)生物醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)協(xié)作,為AI藥物發(fā)現(xiàn)的蓬勃發(fā)展提供了良好的數(shù)據(jù)底座。
AI藥物發(fā)現(xiàn)領(lǐng)域,未來可能會有哪些突破性的事件,是否可以預(yù)計一下?
曾亥年:說到突破性的事件,AI在藥物發(fā)現(xiàn)中的應(yīng)用,可能已經(jīng)有不同的突破了。
比如,阿斯利康目前的整個小分子藥物的新藥研發(fā)中,有一半都已經(jīng)跟人工智能有關(guān),這個在五年之前是不可能發(fā)生的事情。此外,核酸藥物的發(fā)現(xiàn)過程中,也已經(jīng)有大量人工智技術(shù)的應(yīng)用。還有,谷歌的子公司DeepMind開發(fā)的AlphaFold,基本上已經(jīng)解決了常見的蛋白質(zhì)結(jié)構(gòu)的預(yù)測問題。
接下來我們相信一定會有更多的類似的突破性事件,比如解決生物分子和生物分子之間的互相作用的動態(tài)的關(guān)系的算法。我相信這是未來率先需要突破的一個算法模型,有可能會在未來3-5年內(nèi)實現(xiàn)。
隱私安全計算對于燧坤智能這樣的企業(yè)來說有哪些重要意義?
曾亥年:我站在一個用戶或者說是合作方的角度,來回答一下這個問題。
我們現(xiàn)在跟翼方健數(shù)其實是非常深的合作,包括了我們在不斷地測試他們的系統(tǒng)平臺,去看他們整個平臺能夠?qū)崿F(xiàn)的功能或者未來可以實現(xiàn)的功能。我們希望能夠跟翼方健數(shù)能在整個人工智能加藥物研發(fā)領(lǐng)域當(dāng)中,為我們的數(shù)據(jù)方和模型方提供更有價值的隱私安全計算的平臺。
在合作過程中,我們向翼方健數(shù)詳細(xì)介紹了整個業(yè)務(wù)流程,一起探索了哪些方面可以做優(yōu)化。只有把這個業(yè)務(wù)流程跑通,才能實現(xiàn)應(yīng)用場景下的巨大價值。我們可以跟外部更多的數(shù)據(jù)方(包括生物醫(yī)藥企業(yè),甚至是醫(yī)院、多組學(xué)數(shù)據(jù)公司)一起合作,為行業(yè)創(chuàng)造巨大的價值。因為模型可以變得更好,模型又能夠反過來為大家提供更好的成果,帶動更多有價值的數(shù)據(jù)的產(chǎn)生,整個生態(tài)圈的協(xié)作就能夠蓬勃發(fā)展起來了。
對于燧坤智能這樣的企業(yè)來說,隱私安全計算讓我們能夠給客戶提供更多的選項,這是非常重要的。如果把視野擴大一些,隱私安全計算對于整個AI+創(chuàng)新,甚至是對于整個創(chuàng)新生物醫(yī)藥的大生態(tài)系統(tǒng)來說都具有革命性意義。
聯(lián)系客服