機(jī)器之心發(fā)布
機(jī)器之心編輯部
以 GPT-4 為代表的大語言模型風(fēng)靡全球,展現(xiàn)了人工智能(AI)理解和生成人類自然語言的驚人能力,也讓人們對(duì)大模型所能帶來的下一個(gè)范式變革充滿期待。
科學(xué)和產(chǎn)業(yè)領(lǐng)域是否也能打造基礎(chǔ)大模型,為高價(jià)值的行業(yè)任務(wù)帶來新的希望?這已經(jīng)成為人工智能領(lǐng)域的投資熱點(diǎn)。
十一剛過,高舉 All in AI 大旗的全球制藥巨頭賽諾菲就為市場(chǎng)提供了一個(gè)有力的答案:賽諾菲宣布與 BioMap 百圖生科達(dá)成大型戰(zhàn)略合作,雙方將基于百圖生科的生命科學(xué)大模型(Life Science AI Foundation Model),共同開發(fā)用于生物治療藥物發(fā)現(xiàn)的前沿模型。
作為協(xié)議的一部分,BioMap 將獲得 1000 萬美元的預(yù)付款,和多項(xiàng)近期的模型開發(fā)付款、研發(fā)里程碑付款、銷售里程碑付款等回報(bào),總交易金額超過 10 億美元。
今年 6 月,賽諾菲宣布全公司在數(shù)字化轉(zhuǎn)型中邁出下一步,將 “All in” 人工智能和數(shù)據(jù)科學(xué),為患者加速取得突破性成就。賽諾菲首席執(zhí)行官 Paul Hudson 當(dāng)時(shí)宣稱,賽諾菲的目標(biāo)是成為第一家由人工智能大規(guī)模驅(qū)動(dòng)的制藥公司。
而根據(jù)本次雙方公布的戰(zhàn)略合作內(nèi)容看,賽諾菲確實(shí)在擁抱人工智能上走在了前面,在此前多次達(dá)成具體 AI 任務(wù)的合作交易之后,又率先進(jìn)入大模型這樣的 AI 技術(shù)前沿 ,雙方旨在利用百圖生科定制的 AI Foundation Model 和世界領(lǐng)先的人工智能專業(yè)知識(shí),以及賽諾菲的專有數(shù)據(jù)、蛋白質(zhì)工程創(chuàng)新和深厚的生物制劑開發(fā)經(jīng)驗(yàn),創(chuàng)建領(lǐng)先的蛋白質(zhì)大語言模型和人工智能任務(wù)模型,從而優(yōu)化突破性生物治療藥物的發(fā)現(xiàn)和開發(fā)過程。
與以往跨國藥企與 BioTech 或 AI 公司之間聯(lián)合開發(fā)某類特定靶點(diǎn)或藥物不同,此次賽諾菲與百圖生科的戰(zhàn)略合作,是生命科學(xué)行業(yè)首次基于 Foundation Model 的商業(yè)合作,并提出以模型開發(fā)而不是藥物研發(fā)進(jìn)展作為里程碑,這也為 MaaS(Model as a Service)這種大模型時(shí)代的獨(dú)特商業(yè)模式帶來了新的案例。硅谷著名投資人查馬斯(Chamath)不久前曾表示,隨著大模型的功能越來越強(qiáng)、成本越來越高,其平臺(tái)屬性會(huì)更加突出,AI 領(lǐng)域的 MaaS 商業(yè)模式將成為趨勢(shì)。
Foundation Model 與生命科學(xué)
AI Foundation Model,是指在海量數(shù)據(jù)和計(jì)算資源基礎(chǔ)上訓(xùn)練出來的通用、被廣泛使用的基礎(chǔ)模型。這些基礎(chǔ)模型也被認(rèn)為是構(gòu)建各種具體 AI 下游應(yīng)用的基礎(chǔ)。
在自然語言處理和機(jī)器視覺領(lǐng)域,我們已經(jīng)對(duì) GPT 等預(yù)訓(xùn)練基礎(chǔ)模型和下游應(yīng)用十分熟悉。而如今,生命科學(xué)領(lǐng)域也正在發(fā)生著類似的改變,生命科學(xué)領(lǐng)域的通用基礎(chǔ)模型正在形成。
我們都知道,組成蛋白質(zhì)的 20 種氨基酸 “字母”,決定了蛋白質(zhì)的性質(zhì)、蛋白質(zhì)之間的相互作用關(guān)系,也決定了細(xì)胞中蛋白質(zhì)網(wǎng)絡(luò)的復(fù)雜調(diào)控關(guān)系和復(fù)雜的生命活動(dòng)現(xiàn)象。這些氨基酸 “字母” 以及蛋白質(zhì)序列,與人類的自然語言又是何其相似。
可以說,將大語言模型所擁有遠(yuǎn)超人類想象的復(fù)雜理解能力和創(chuàng)新生成能力,應(yīng)用在更加復(fù)雜的生命 “自然語言” 上,將有望真正改變生命科學(xué)的研究范式。
正如 DeepMind 首席執(zhí)行官兼創(chuàng)始人 Demis Hassabis 所說:“從其最基本的層面來看,我認(rèn)為生物學(xué)可以被看作是一個(gè)信息處理系統(tǒng),盡管是一個(gè)非常復(fù)雜和動(dòng)態(tài)的系統(tǒng)。就像數(shù)學(xué)被證明是物理學(xué)的正確描述語言一樣,生物學(xué)可能會(huì)成為人工智能應(yīng)用的完美領(lǐng)域?!?/span>
“從蛋白質(zhì)的序列和結(jié)構(gòu)到多細(xì)胞系統(tǒng)的行為,我們正在開發(fā)人工智能基礎(chǔ)模型,以理解和預(yù)測(cè)不同復(fù)雜程度尺度上的生命行為。” 在百圖生科官網(wǎng)上,有這樣一句關(guān)于 Life Science Foundation Model 的介紹。
由李彥宏和劉維于 2020 年創(chuàng)立的百圖生科,從創(chuàng)立之初就高舉生物計(jì)算平臺(tái)的大旗,大投入于構(gòu)建生命科學(xué)大模型的平臺(tái)技術(shù)。歷經(jīng)兩年多時(shí)間,構(gòu)建了生命科學(xué)領(lǐng)域的 Foundation Model——xTrimo,這是一個(gè)千億參數(shù)規(guī)模的以蛋白質(zhì)為中心的大語言模型,從跨物種、跨模態(tài)的生命信息中學(xué)習(xí)蛋白質(zhì)如何構(gòu)成和實(shí)現(xiàn)功能、如何相互作用、如何組合和調(diào)控細(xì)胞功能的關(guān)鍵規(guī)律。只有在一定程度上真正解碼了生命 “語言” 的奧秘,才有希望為當(dāng)今充滿挑戰(zhàn)的復(fù)雜生命科學(xué)問題,包括癌癥、衰老等,提供創(chuàng)新性的解決方案。
但是,一個(gè)通用的 Life Science Foundation Model 該如何打造?又如何基于此構(gòu)建下游任務(wù)模型以解決具體的生命科學(xué)問題?
傳統(tǒng)的人工智能方法,需要大量的標(biāo)記數(shù)據(jù)才能做出準(zhǔn)確的預(yù)測(cè)。然而在生命科學(xué)領(lǐng)域,高質(zhì)量的標(biāo)記數(shù)據(jù)往往供不應(yīng)求。想要在更少數(shù)據(jù)的基礎(chǔ)上構(gòu)建更準(zhǔn)確的下游任務(wù)模型,就意味著底層基礎(chǔ)模型需要具有更好的表征或通用能力。
按照百圖生科官網(wǎng)的介紹,基礎(chǔ)模型是生命科學(xué)領(lǐng)域徹底革命性的人工智能技術(shù),因?yàn)榛A(chǔ)模型可以在海量的未標(biāo)記數(shù)據(jù)上進(jìn)行訓(xùn)練,并且只需有限的標(biāo)記數(shù)據(jù),就可以為多個(gè)下游任務(wù)模型提供足夠的信息。百圖生科這種基礎(chǔ)模型 + 任務(wù)模型的技術(shù)體系,使科學(xué)家能夠更準(zhǔn)確地模擬從蛋白質(zhì)到系統(tǒng)級(jí)別的生命,比如可以根據(jù)免疫學(xué)、神經(jīng)病學(xué)、腫瘤學(xué)和罕見疾病等治療領(lǐng)域的有限數(shù)據(jù),提取新穎的見解和出色的預(yù)測(cè),從而更好地加速相關(guān)治療或藥物的開發(fā)。
在今年 9 月舉辦的第二屆中國生物計(jì)算大會(huì)現(xiàn)場(chǎng),百圖生科 CTO 宋樂博士曾接受機(jī)器之心采訪,談到計(jì)算生物學(xué)、AI for Science 的未來時(shí),他表示 ——
“AI 模型的下一步肯定會(huì)有一些新東西。一方面,預(yù)訓(xùn)練模型能否訓(xùn)練得規(guī)模更大,更加充分,基于預(yù)訓(xùn)練模型的下游任務(wù)模型是否能夠泛化遷移到新的靶點(diǎn)和蛋白質(zhì)設(shè)計(jì)問題;另一方面,是如何把單一模態(tài)的大模型更好地變成跨模態(tài)的大模型?!?/span>
“想要解決生命科學(xué)問題,下一步需要一個(gè)真正能解碼、理解生命的大模型。不再只是一個(gè)模型,更像是一個(gè)模型體系。這些基礎(chǔ)模型,無論是在病人某種類型細(xì)胞中尋找靶點(diǎn),還是針對(duì)某種分子設(shè)計(jì)蛋白藥物或者小分子藥物,都能起到一定的作用。這種基礎(chǔ)模型將是生物計(jì)算的下一個(gè)范式,我們將會(huì)有更好的方式去應(yīng)對(duì)生命科學(xué)里面各個(gè)層次的問題?!?/span>
如今,在由 300 多名專家組成的國際團(tuán)隊(duì)的支持下,百圖生科正在基于 Foundation Model 引擎能力,不斷拓展下游任務(wù)模型的邊界,解決與蛋白質(zhì)相關(guān)的治療性抗體、工業(yè)酶開發(fā)以及創(chuàng)新蛋白設(shè)計(jì)等問題。這一過程不僅推動(dòng)著生成式人工智能的進(jìn)一步發(fā)展,也正革命性地改變著生命科學(xué)領(lǐng)域研究的范式路線。
MaaS—— 人工智能領(lǐng)域的革命性商業(yè)模式
基礎(chǔ)模型在 MaaS 模式中扮演著重要的角色,可以說它是所有環(huán)節(jié)的基礎(chǔ),也是起點(diǎn)。
一方面,基礎(chǔ)模型的通用性,意味著作為其它特定任務(wù)模型的基礎(chǔ),應(yīng)用于多個(gè)不同的任務(wù)和領(lǐng)域,開發(fā)人員可以基于基礎(chǔ)模型,通過微調(diào)或遷移學(xué)習(xí)來適應(yīng)特定的問題或數(shù)據(jù)集,從而構(gòu)建自己的任務(wù)模型。
另一方面,基礎(chǔ)模型也為開發(fā)人員提供了一個(gè)強(qiáng)大的起點(diǎn),加速應(yīng)用程序和服務(wù)的開發(fā)過程,而無需從頭開始訓(xùn)練和構(gòu)建模型,更重要的是,這一特征將使得更多的開發(fā)者和組織,受益于先進(jìn)的機(jī)器學(xué)習(xí)和人工智能技術(shù)(比如讓無編程能力的生物領(lǐng)域科學(xué)家們可以輕松擁有 AI 大模型的調(diào)用能力)。
MaaS 模式的誕生,得益于大模型技術(shù)的顛覆性進(jìn)展,而這一模型的革命性同樣也帶來了許多創(chuàng)新和改變,不僅能夠降低人們使用人工智能模型的門檻和成本,而且大大加速了機(jī)器學(xué)習(xí)和人工智能技術(shù)在各行各業(yè)的應(yīng)用。
這一模式對(duì)于行業(yè)的變革,不僅影響了許多小型和創(chuàng)業(yè)公司,也真吸引著跨國巨頭企業(yè)們的重視。
賽諾菲作為知名跨國藥企,可以說是最積極擁抱 AI 技術(shù)的制藥公司之一,在過去兩年多的時(shí)間里,賽諾菲宣布了多項(xiàng)與人工智能領(lǐng)域領(lǐng)先生物技術(shù)公司的合作。據(jù)不完全統(tǒng)計(jì),僅在 2022 年,賽諾菲就總計(jì)支付了近 2 億美元的合作預(yù)付款。
但在諸多的合作案例中,除了基于某些靶點(diǎn)進(jìn)行候選藥物開發(fā),或者推進(jìn)臨床試驗(yàn)等藥物研發(fā)項(xiàng)目外,我們也能看到,賽諾菲在人工智能技術(shù)基礎(chǔ)平臺(tái)建設(shè)上的投入越來越高。在過去兩年里,賽諾菲通過收購和合作,與多家 AI 制藥公司、計(jì)算機(jī)公司、AI 醫(yī)學(xué)數(shù)據(jù)公司可謂是展開了全方位合作。
尤其是今年 6 月宣布 “All In” 人工智能和數(shù)據(jù)科學(xué)后,賽諾菲算是邁出了公司轉(zhuǎn)型過程中最重要也是最激進(jìn)的一步。
“人工智能和數(shù)據(jù)科學(xué)的使用已經(jīng)支持了我們團(tuán)隊(duì)在加速藥物發(fā)現(xiàn)、加強(qiáng)臨床試驗(yàn)設(shè)計(jì)、改善藥品和疫苗的生產(chǎn)和供應(yīng)等方面的努力。對(duì)于我們?nèi)绾螕肀н@些顛覆性技術(shù)以實(shí)現(xiàn)我們改變醫(yī)學(xué)實(shí)踐的雄心壯志,我們才剛剛觸及表面?!?賽諾菲首席執(zhí)行官 Paul Hudson 表示。
作為一家創(chuàng)新型的全球醫(yī)療保健公司,賽諾菲在研究領(lǐng)域進(jìn)行了大規(guī)模的投資,積累了多個(gè)疾病領(lǐng)域和治療領(lǐng)域的豐富經(jīng)驗(yàn)和高質(zhì)量數(shù)據(jù)。這些獨(dú)有的數(shù)據(jù)集對(duì)于 AI 模型非常有價(jià)值,因?yàn)樗鼈兛梢詷O大地補(bǔ)充當(dāng)前公開可用數(shù)據(jù)的不足,還可以提供大量的訓(xùn)練和驗(yàn)證數(shù)據(jù),以適應(yīng)模型的特定應(yīng)用場(chǎng)景?;蛟S這是百圖生科選擇賽諾菲的主要原因。
而百圖生科構(gòu)建的生命科學(xué)基礎(chǔ)模型 xTrimo 體系,擁有超過 1000 億個(gè)參數(shù),并在包括抗體結(jié)構(gòu)、抗體親和力、酶功能、免疫細(xì)胞功能等 20 多個(gè)下游預(yù)測(cè)任務(wù)中取得了最先進(jìn)的性能。百圖生科在高質(zhì)量數(shù)據(jù)挖掘和利用、跨模型數(shù)據(jù)整合和分析、任務(wù)模型開發(fā)以及工業(yè)效率改進(jìn)方面的優(yōu)勢(shì),則或許是賽諾菲選擇與百圖生科合作的原因。
當(dāng)然,不得不提的是,根據(jù)協(xié)議的條款,賽諾菲將向百圖生科支付 1000 萬美元的預(yù)付現(xiàn)金款項(xiàng),并將根據(jù)模型開發(fā)里程碑獲得額外的近期支付。基于研發(fā)里程碑付款、銷售里程碑付款等回報(bào),百圖生科未來有望獲得超過 10 億美元總金額。
不過,更為關(guān)鍵的一點(diǎn)是,一個(gè)全球頭部藥企,一個(gè)生命科學(xué)大模型創(chuàng)業(yè)公司,雙方似乎都已經(jīng)認(rèn)識(shí)到,通過 AI 模型的力量,數(shù)據(jù)的價(jià)值可以增加,并可以轉(zhuǎn)化為直接促進(jìn)新藥開發(fā)的工具。
在公告中,雙方表示 “這次合作將結(jié)合賽諾菲的專有數(shù)據(jù)集、數(shù)字基礎(chǔ)設(shè)施、人工智能和數(shù)據(jù)科學(xué)能力以及藥物開發(fā)專業(yè)知識(shí),與百圖生科的大型語言模型、高性能計(jì)算和深刻的人工智能理解,開發(fā)一系列專門針對(duì)特定模態(tài)的先進(jìn) AI 模型和大語言模型,并共同推進(jìn)這些模型在藥物研究中的應(yīng)用,加速突破性療法的發(fā)現(xiàn)過程?!?/span>
正如賽諾菲全球研究平臺(tái)負(fù)責(zé)人 Matt Truppo 所說,與百圖生科的合作進(jìn)一步強(qiáng)調(diào)了賽諾菲致力于成為第一個(gè)大規(guī)模人工智能驅(qū)動(dòng)的制藥公司的承諾。而成立不到三年的百圖生科,也已經(jīng)成為了一家擁有顛覆性實(shí)力的生命科學(xué)人工智能公司。
參考資料:
[1]https://www.businesswire.com/news/home/20231010485897/en/BioMap-Establishes-a-Strategic-Collaboration-with-Sanofi-to-Co-Develop-AI-Modules-to-Accelerate-Drug-Discovery-for-Biotherapeutics
[2] https://youtu.be/P7HjKUlVvVs?feature=shared
[3] https://www.sanofi.com/en/media-room/press-releases/2023/2023-06-13-12-00-00-2687072
[4] https://hai.stanford.edu/news/reflections-foundation-models
[5] https://www.forbes.com/sites/robtoews/2023/07/16/the-next-frontier-for-large-language-models-is-biology/
[6] https://www.biomap.com/
[7] https://mp.weixin.qq.com/s/dNXQClZi5ZPBdCHADfK8Mg
聯(lián)系客服