1 在多智能體中通向“智能”
來源:AI科技評論
作者:黃楠
過去短短不到一年里,ChatGPT、GPT-4 的相繼面世,不斷刷新人們對 AI 的認知。
新技術(shù)帶來變革,也引發(fā)了外界對 AI 是否會取代人的討論,OpenAI 首席執(zhí)行官 Sam Altman 也公開表示,對人工智能技術(shù)的強大能力有些擔(dān)憂。
近日,倫敦大學(xué)學(xué)院(UCL)計算機系教授汪軍在接受 AI 科技評論采訪時坦言,雖然 ChatGPT 的語言能力、對話能力很強,但其并無法進行系統(tǒng)性決策,例如機器控制、群體協(xié)作、動態(tài)調(diào)度等,而這些是 AI 技術(shù)浪潮中更具革命性的部分。
汪軍,倫敦大學(xué)學(xué)院(UCL)計算機系教授,阿蘭·圖靈研究所 Turing Fellow。其主要研究智能信息系統(tǒng),包括機器學(xué)習(xí)、強化學(xué)習(xí)、多智能體,數(shù)據(jù)挖掘、計算廣告學(xué)、推薦系統(tǒng)等;谷歌學(xué)術(shù)被引用量超過1.6萬次,已發(fā)表學(xué)術(shù)論文120多篇,曾多次獲得最佳論文獎。
2022年4月,上海數(shù)字大腦研究院正式創(chuàng)立,內(nèi)部孵化并成立了 Enigma Tech(中文名“謎題科技”),汪軍擔(dān)任上海數(shù)字大腦研究院聯(lián)合創(chuàng)始人、院長,并出任謎題科技首席科學(xué)家;下半年,數(shù)研院研發(fā)出全球第一個多智能體決策大模型,該大模型集合 CV、NLP、強化學(xué)習(xí)和多智能體,致力于幫助企業(yè)解決多場景決策問題。
汪軍認為,ChatGPT 的出現(xiàn),解決了以往大模型訓(xùn)練中如何降低門檻的難題,通過將自然語言處理與決策大模型的結(jié)合,ChatGPT 帶來的不能只是聊天,而是在 AIGC(AI Generated Content,內(nèi)容生產(chǎn)) 的基礎(chǔ)上更進一步探索 AIGA(AI Generated Actions,決策生成),讓模型的思考能力和決策能力應(yīng)用到具體場景中,真正實現(xiàn)幫助企業(yè)和人們解決決策問題,將人類釋放到更具創(chuàng)造性的活動中。
1 在多智能體中通向“智能”
AI 智能探索的進程中,脫離不開對定義問題的終極追求。
汪軍將通往智能的路徑分為兩步。第一步,需要先明確生物系統(tǒng)(Living System,人歸屬于生物系統(tǒng))和非生物系統(tǒng)的差別。
2013年,生物物理學(xué)家 Jeremy England 提出一個開創(chuàng)性“耗散適應(yīng)”理論(dissipation-driven adaptation),將生命起源歸結(jié)于熱力學(xué)的必然結(jié)果,無分子系統(tǒng)在一定條件下通過化學(xué)反應(yīng)代謝消耗能量,以促進能量持續(xù)消耗及“熵”的增加。
在熵增熵減理論中,生命體從無序變成有序的過程持續(xù)吸收能量不斷熵減,汪軍認為,AI 從人產(chǎn)生,因此也是吸收能量幫助人完成熵減的使命,解決基礎(chǔ)問題的關(guān)鍵點在于如何定義智能,明確 AI 需要吸收多少能量才能達到一定的智能。
使用 AI 做圖像分類識別時,分類算法其準確率可達到98%。通過分類,AI幫助我們可以將處于無序狀態(tài)的圖像內(nèi)容組織轉(zhuǎn)變?yōu)橛行?、有?guī)律可循的圖像,系統(tǒng)中不確定性減小,產(chǎn)生熵減。熵減也需要計算,形成算法的算力多少,算力即是消耗能量的一種體現(xiàn)。
通往智能的第二步,汪軍認為,是分辨生物系統(tǒng)、所謂的 AI 系統(tǒng)的意識問題。當前,人工智能作為工具存在,算法只能判別 AI 工作的優(yōu)良程度,機器本身并不存在思考,如何使機器最終達到與人相等的思考能力,需要先理解人類大腦的各種現(xiàn)象,并增加對 AI 意識的關(guān)注。
在汪軍看來,意識是智能的一個重要表現(xiàn),哺乳動物可以察覺意識、感知意識并形成主觀感受;同時,當多個個體與環(huán)境交互時,必須存在除單個個體外、另一有意識個體與環(huán)境發(fā)生影響、產(chǎn)生共鳴,從而使主觀感受得以表達。
對此,汪軍和團隊提出,在 AI 研究中,必須有多智能體(Multi-Agent)的相互作用來引發(fā)意識。
以大模型為例,跨任務(wù)是人為定義的,只局限在給定一個特定任務(wù),把算法設(shè)計好讓機器去跑,難以產(chǎn)生更大智能的 AI,模型的思考能力和決策能力也無法得到提升。
汪軍告訴 AI 科技評論,“在同時推進多個事情時,需要大的思想來指導(dǎo)。如果沒有,顯然還缺乏一個內(nèi)在的規(guī)律?!边@個規(guī)律,正是機器模型通往更大“智能”的關(guān)鍵路徑。
2022年5月,DeepMind 發(fā)布集合 CV 和 NLP 的通用智能體“GATO”,它可以玩雅達利游戲、輸出圖片字幕、用機械臂堆疊積木、跟人聊天等等,還能根據(jù)上下文決定是否輸出文本、關(guān)節(jié)力矩、按鈕按壓或其他 token(逐詞),這項工作在當時引起了不小的討論。汪軍也是關(guān)注者之一。
事實上,從2021年開始,汪軍和團隊就開始思考創(chuàng)建一個可實現(xiàn)跨任務(wù),將 CV、NLP、強化學(xué)習(xí)和多智能體四者嵌套為一個統(tǒng)一體決策模型的可能性。“GATO”的出現(xiàn)讓汪軍看到大模型廣闊的可探索空間,“這足以證明,一個模型解決多個領(lǐng)域任務(wù)是大勢所趨?!?/p>
決策大模型并不能單純從模型大小意義出發(fā),究其本質(zhì),是在數(shù)據(jù)集中通過強化學(xué)習(xí)與環(huán)境不斷交互所達到的一定的認知水平,如何攻破這個問題?當中最大的技術(shù)點就在于,降低強化學(xué)習(xí)和環(huán)境交互的復(fù)雜度。
原有數(shù)據(jù)在這一環(huán)節(jié)中起到關(guān)鍵性作用。
通過對其他任務(wù)或算法同環(huán)境交互產(chǎn)生的原有數(shù)據(jù)訓(xùn)練,搭建一個預(yù)訓(xùn)練模型,這一模型在面對新任務(wù)時即可迅速在進行應(yīng)用,從而實現(xiàn)規(guī)律、關(guān)系和數(shù)據(jù)的價值最大化。而伴隨預(yù)訓(xùn)練數(shù)據(jù)集的不斷擴大,模型也隨之變大,直至它可覆蓋的所有任務(wù)。
最終結(jié)果是,解決問題的方法聚攏,多個方向匯聚、統(tǒng)一為一個可預(yù)約、可跨任務(wù)泛化的多智能體。多智能體往往需要考慮平衡關(guān)系,即在達到自我目標的同時,使對方也能達到它的目標,互相牽制從而保持一個穩(wěn)定的平衡。
進入實際應(yīng)用場景中,多智能體也可以幫人們解決很多實際問題,例如搜索、推薦,甚至互聯(lián)網(wǎng)廣告,其本質(zhì)上是一個決策的過程,幫助用戶找到需要的內(nèi)容,而且這個內(nèi)容是符合用戶喜好的,“推薦給你看,其實就是個決策?!薄?/p>
多智能體的優(yōu)勢在于,可以很好地發(fā)揮其跨任務(wù)的能力。
事實上,早在2017年開始,汪軍和其學(xué)生張偉楠(上海交通大學(xué)教授)就開始了跨任務(wù)嘗試,在自然語言處理(NLP)中加入強化學(xué)習(xí)。
以往的自然語言處理使用 GAN 生成文字時,由于詞索引與詞向量在轉(zhuǎn)換過程中的數(shù)據(jù)不連續(xù),經(jīng)常會導(dǎo)致微調(diào)參數(shù)不起作用;不僅如此,由于 GAN 的判別模型只對生成數(shù)據(jù)整體打分,但文字一般均為逐詞生成,難以控制細節(jié)。
為此,他們提出 SeqGAN 模型,通過在借鑒強化學(xué)習(xí)策略,解決了 GAN 應(yīng)用于離散數(shù)據(jù)的問題,這也是最早利用強化學(xué)習(xí)訓(xùn)練生成性語言模型的論文之一,實現(xiàn)了文本生成,在自然語言處理和信息檢索等不同領(lǐng)域具有廣泛的應(yīng)用。
論文地址:https://arxiv.org/pdf/1609.05473.pdf
“強化學(xué)習(xí)和決策本質(zhì)上是相通的,通過強化學(xué)習(xí),可以解決一些決策問題?!痹谕糗娍磥?,決策是一個長期研究的問題,多智能體決策大模型的提出,經(jīng)泛化后可在某些特定領(lǐng)域形成特有優(yōu)勢,AI 中大部分問題均可借助決策大模型來解決。
2 AIGA 比 AIGC 更進一步
ChatGPT 掀起的熱度還未過,3月15日,多模態(tài)預(yù)訓(xùn)練大模型 GPT-4 發(fā)布后,又一場顛覆性的變革呼嘯而至。
在這場關(guān)于通用人工智能的角逐中,ChatGPT、GPT-4 不是終點,競賽的關(guān)鍵聚焦在浪潮下更具價值的產(chǎn)業(yè)革命和創(chuàng)新中。
期間,汪軍也與關(guān)注市場資本的朋友保持密切溝通。
在汪軍看來,學(xué)術(shù)圈里面的問題有些不夠大膽、受資源約束,思考問題會受到一定因素的約束。而在工業(yè)界,決策大模型可以擁有更豐富的應(yīng)用場景,無論是在傳統(tǒng)產(chǎn)業(yè),互聯(lián)網(wǎng)搜索推薦,到工業(yè)互聯(lián)網(wǎng)等等,都需要各種各樣的決策。
帶著這樣的想法,汪軍開始考慮將決策大模型在產(chǎn)學(xué)研三棲結(jié)合的可能性。
經(jīng)過一年的籌備期,2022年4月上海數(shù)字大腦研究院正式創(chuàng)立,內(nèi)部孵化并成立 Enigma Tech(“謎題科技”),主要負責(zé)將數(shù)研院的科研成果面向產(chǎn)業(yè)落地,為數(shù)研院提供現(xiàn)實場景及真實業(yè)務(wù)數(shù)據(jù)。汪軍擔(dān)任數(shù)研院聯(lián)合創(chuàng)始人、院長,并出任謎題科技首席科學(xué)家。
當大模型邁進實際的應(yīng)用場景里,企業(yè)往往面臨著模型廣譜性不強、入局門檻高的兩大痛點。
經(jīng)典的機器學(xué)習(xí)方法采用的是定制化模式,企業(yè)下發(fā)任務(wù)后,先定義問題、收集數(shù)據(jù)訓(xùn)練、模型測試,二次任務(wù)下發(fā)后,模型需要再次收集定義問題、收集數(shù)據(jù)訓(xùn)練、模型測試,往往會導(dǎo)致企業(yè)在部署上就已經(jīng)損耗了極大的財力、人力資源,廣譜性不強。同時,使用大模型對工程師的技術(shù)能力要求極高,需要具備一定的優(yōu)化經(jīng)驗,企業(yè)參與門檻高。
汪軍認為,ChatGPT 結(jié)合決策大模型,可以有效解決低門檻、廣譜性的問題。
在這樣的思考下,汪軍領(lǐng)導(dǎo)謎題科技團隊提出 DB 大模型(AIGA 方向大模型,AIGA:AI Generated Actions,決策生成),其首發(fā)的 DB1 為全球首個多模態(tài)決策大模型,對標 DeepMind 推出的 GATO,可全面支撐多智能體,能夠并發(fā)處理千個以上決策任務(wù)。
通過將 ChatGPT 與決策大模型的結(jié)合,ChatGPT 帶來的不能只是聊天,而是在 AIGC 的基礎(chǔ)上更進一步探索 AIGA,讓模型的思考能力和決策能力應(yīng)用到具體場景中,所產(chǎn)生的交互通過跟具體場景的環(huán)境交互,小數(shù)據(jù)完成大任務(wù),可直接面向產(chǎn)業(yè)真實場景,借助大模型實現(xiàn)任務(wù)閉環(huán),實現(xiàn)機器人協(xié)作、設(shè)備動態(tài)、企業(yè)自主化調(diào)度、軟件開發(fā)等更廣泛應(yīng)用。
進而真正幫助企業(yè)和人們解決決策問題,將人類釋放到更具創(chuàng)造性的活動中。“最終為整個人類的進步帶來很大的促進作用。在這個情況下,我們才能孕育出真正的 AGI(通用人工智能)?!?/p>
目前,數(shù)字大腦研究院的基本架構(gòu)已搭建完成,業(yè)務(wù)內(nèi)容從算法、系統(tǒng)到具體工程項目均有覆蓋,可應(yīng)用于推薦系統(tǒng)、故障預(yù)測、自動駕駛、市場設(shè)計、游戲場景、EDA 優(yōu)化等多個場景,解決企業(yè)運作過程中的實際問題。
走出實驗室、成立數(shù)字大腦研究院,對汪軍而言,感受和狀態(tài)是截然不同的:研究不可能將所有因素放在一起考慮,要解決這個問題,首先其他東西得簡化,把真正問題解決了再轉(zhuǎn)向下一個;而一項研究的落地則更可能是多個問題的集合體,需要各個問題都一一擊破,并把解決問題的方法統(tǒng)一去應(yīng)用。
去年7月份,AI 科技評論曾有幸與汪軍院長進行了一場深入討論,彼時他對數(shù)研院的目標是,推動決策智能研究和 AI 研究,在中國做最好的、最基礎(chǔ)的研究。
而過去短短一年,Stable Diffusion、ChatGPT 和 GPT-4 等模型的出現(xiàn),讓汪軍驚喜地認識到 AI 技術(shù)的革命性進步,也令他對數(shù)研院有了更具象化的目標,將決策大模型應(yīng)用到具體場景中解決實際意義問題。
從學(xué)術(shù)界到工業(yè)界,數(shù)字大腦研究院的發(fā)展時間還不長,其雛形也映射出汪軍在人工智能路上探知求索的方向?!拔覀兙褪且咦约旱囊粭l路,怎么樣把產(chǎn)學(xué)研結(jié)合一起闖出條新路,問一些以前沒有問過的問題。”
3 對話汪軍
AI 科技評論:介紹一下數(shù)研院過去一年在多智能體決策大模型方面所做的工作和進展。
汪軍:去年夏天我開始計劃一個新的課題,我們覺得大模型不只是在NLP、CV 里,它在決策中也有很大的作用,當時 DeepMind “GATO”的工作嘗試將各種各樣的任務(wù)放在一個大模型里面、Transform里面去進行學(xué)習(xí),給到了我們啟發(fā),所以當時就決定在它的基礎(chǔ)上往前探索,做了一個決策大模型,包括視頻、圖像的數(shù)據(jù),自然語言的數(shù)據(jù),機器人的數(shù)據(jù),甚至還加入求解器的數(shù)據(jù),例如怎樣做優(yōu)化任務(wù)、布置生產(chǎn)排期、對車輛進行優(yōu)化等。我們做了一個10、15億左右參數(shù)的大模型,雖然是一個早期的探索,但也證明了在大模型里面不光只是自然語言處理,還能在決策起到明顯作用。
前段時間我們在做足球游戲,發(fā)現(xiàn)有個沒有攻克的問題:現(xiàn)在強化學(xué)習(xí)所存在的研究邏輯,AlphaGo、星際爭霸、Dota 等帶有游戲系統(tǒng)中,人越多,其決策空間也會更加復(fù)雜。
對此,我們以游戲場景的足球作為問題研究點,在多智能體決策大模型中進行了多次嘗試,從簡單的2人足球,到5人、到11人。這個是比較大的、對強化學(xué)習(xí)有挑戰(zhàn)性的場景,目前問題本質(zhì)還沒有完全解決,或者說解決得很好,因此我們也花了很多時間在做這件事情,希望能做出一點成績。
AI 科技評論:ChatGPT 發(fā)布后,對數(shù)研院的研究帶來什么影響?
汪軍:我們一直重心在是決策上,現(xiàn)在也一直是。但 ChatGPT 出來后,我們對它的語言能力感覺到非常驚艷,完全超過我們的預(yù)期,對決策任務(wù)也起了一定的促進作用。
在做決策優(yōu)化的過程中,需要解決兩大痛點:廣譜性和低門檻。
決策大模型在一定程度上解決了模型的廣譜性問題,將新任務(wù)放置大模型內(nèi)進行迭代、微調(diào),一個大模型可以應(yīng)對各種各樣的決策問題。
低門檻問題在做 AI 公司中普遍存在,在此之前,使用大模型對工程師的能力要求非常高,往往需要有優(yōu)化經(jīng)驗的人參與到問題決策過程中,個人和企業(yè)參與的門檻非常高,也增加了 AI 的使用成本。
為了解決使用的低門檻問題,我們之前預(yù)想發(fā)明一個比較簡單的語言,可以比自然語言要更復(fù)雜、嚴謹一點,但比真正的編程簡單些,任何人都可以使用,ChatGPT 的出現(xiàn),突然讓我們意識到,機器的自然語言可以達到一個正常跟人交流的水平,一下子就把低門檻的痛點解決了。對我們來說,這個改變帶來的觸動是比較大的。
更有意思的是,ChatGPT 里具有一定的邏輯推理能力,可以幫助我們將一個復(fù)雜的問題分解為幾個子問題,這個子問題部分原本需要專業(yè)人士進行人為分解,但通過 ChatGPT 對語義的理解,在得到范例的情況下可對問題分解成基礎(chǔ)的問題,再經(jīng)由決策大模型對基礎(chǔ)問題已有的決策能力,實現(xiàn)直接調(diào)用。
AI 科技評論:多智能體決策大模型涵蓋的領(lǐng)域很多,在數(shù)據(jù)這塊會有什么要求?把它跟 ChatGPT 進行結(jié)合后,對某一領(lǐng)域的數(shù)據(jù)是否有特別的需求?
汪軍:它會有一些特定的要求。
自然語言的數(shù)據(jù)是離線的,屬于方法論上的學(xué)習(xí);而決策中需要很多產(chǎn)生數(shù)據(jù)的能力,需要一個仿真器。舉個例子,當我們訓(xùn)練機械狗走路時,我們不會讓它到雨天里或其他環(huán)境走一圈將數(shù)據(jù)采集回來,往往是先建一個跟外界非常像的仿真器,通過仿真器來產(chǎn)生數(shù)據(jù),模型學(xué)習(xí)完后再放到真實場景給予反饋,回來再進行學(xué)習(xí),從而使得它可以很快將決策能力遷移到現(xiàn)實中應(yīng)用。大模型技術(shù)囊括各種各樣的場景,無論是下雨天、走臺階、走沙土都沒有任何問題。
第二個難點是,決策數(shù)據(jù)訓(xùn)練的難度比自然語言處理的難度要大,這個過程中在不斷產(chǎn)生數(shù)據(jù),數(shù)據(jù)產(chǎn)生的效率、產(chǎn)生在什么地方,如何分配到各個學(xué)習(xí)模塊里面進行學(xué)習(xí),需要統(tǒng)一的系統(tǒng)層面解決方案,此前我們專門做了一套大規(guī)模的學(xué)習(xí)方法,主要應(yīng)用在這種強化學(xué)習(xí)訓(xùn)練的方法。但 ChatGPT 出來后,基于大預(yù)言模型的訓(xùn)練方法不太適用。
AI 科技評論:具體場景中,如何用 ChatGPT 跟決策大模型進行結(jié)合?
汪軍:舉一個機械狗的案例:最早我們訓(xùn)練機械狗使用的是歸控的經(jīng)典方法,它的問題是在單一環(huán)境路況上走沒有問題,但遇到雨天、雪天就走不了,但當我們加入了大模型方案后,機械狗開始具備基礎(chǔ)的交互能力,可以進行推理。向機械狗下發(fā)一個送信的指令,模型會將任務(wù)自動分解為1至5個基礎(chǔ)步驟,每個模塊在傳送中有對應(yīng)邏輯,例如從A點行至B點的路徑規(guī)劃。
由于機械狗自身并不具備往東走、往西走的概念,只有坐標,因此需要將交互指令與具體的語義結(jié)合、對應(yīng)起來,通過 ChatGPT 的方式,我們無需將指令轉(zhuǎn)化為編程語言,可直接進行交互,機械狗在接收到問題后,會講指令分解成幾個不同的問題,先優(yōu)化一部分的 Chat,將動作、決策和語義同 ChatGPT 產(chǎn)生自然語言對應(yīng)起來。
這樣成為了我們接下來研究的主要方向,我們將其稱為 AIGA(AI generate actions),前期 ChatGPT 帶來的是 AIGC,再結(jié)合決策大模型,從 generate content 更進一步、變?yōu)?generate actions,生成決策。
數(shù)研院的長處是在決策大模型,因此我們堅持決策大模型的方向是不變的,要讓 AI 不只是交流,更重要的它是幫助你去優(yōu)化,幫助你去做決策,我們覺得它的價值非常大。ChatGPT 結(jié)合決策大模型后,所產(chǎn)生的交互不再僅限于它能回答問題,更在于它是否能理解復(fù)雜、構(gòu)建復(fù)雜,通過跟具體場景的環(huán)境交互,ChatGPT 跟決策大模型進行結(jié)合,可實現(xiàn)機器人協(xié)作、設(shè)備動態(tài)、企業(yè)自主化調(diào)度、軟件開發(fā)等更廣泛應(yīng)用。
AI 科技評論:在訓(xùn)練多模態(tài)數(shù)據(jù)之后,參數(shù)量到達多少會涌現(xiàn)更多的能力?文字,圖像,語音,視頻……哪一個模態(tài)對多模態(tài)模型的影響會更大?
汪軍:在數(shù)據(jù)方面,“大力出奇跡”這個事情有一定的極限,雖然目前這個極限我們還沒有完全看到,但是我覺得,我們不是只著眼于僅學(xué)習(xí) ChatGPT 的訓(xùn)練方式。
ChatGPT 的語言能力很強、對話能力很強,但 ChatGPT 是否真正理解了它吸收的內(nèi)容?我認為它是沒有理解的。讓它玩猜數(shù)字游戲,表面上它可以玩,但其實它是不知道、沒法猜到你心里的數(shù)字。ChatGPT 更多是在原有訓(xùn)練數(shù)據(jù)中對邏輯內(nèi)容的記憶,它的搭料能力很強,但是它真正理解的能力很弱。
如何打破它的局限性?我認為,我們需要在訓(xùn)練里加上模型對整個世界的理解,如果它本身不去建一個描述世界的數(shù)學(xué)模型,把它的理解放到世界模型中,它不會對周圍世界有更深層次的理解的。舉個簡單的例子,我們給 ChatGPT 2000分以下的所有人類下棋能力的數(shù)據(jù),如果模型只模仿人,那么它無法模仿出比2000分更高的智能。
數(shù)據(jù)很重要,但與此同時,模型的大小也很重要,要有不同的訓(xùn)練方法來提高它。
而在多模態(tài)中,自然語言是基礎(chǔ),人在思考時,語言是我們的思維的載體,它構(gòu)架了一個相對清晰的邏輯描述,這個邏輯描述可能并不是百分百嚴謹,存在不清晰、模糊的地方,但是它足夠讓我們?nèi)ケ磉_一些非常復(fù)雜的邏輯關(guān)系。
但與此同時,我們也要清晰地認識到,自然語言中隱含的語義信息和表達是非常重要的,也就是說,它可以能把這個問題表述得很清晰、但這是表象,最主要的是對話里面含載的語義關(guān)系,當其他多模態(tài)來了之后,匹配上相應(yīng)的語義表達,就可以遷移到其他的模態(tài)當中。
在自然語言的基礎(chǔ)上,我們可以加入其他更多模態(tài)參與到模型當中。
AI 科技評論:您如何看待“人類反饋”數(shù)據(jù)對多模態(tài)大模型或決策大模型的影響?
汪軍:需要一些人類反饋數(shù)據(jù),但它的量不像以前的監(jiān)督式學(xué)習(xí)需求量那么大,一個基礎(chǔ)模型只需要給它幾個示范,目的是導(dǎo)引基礎(chǔ)模型適應(yīng)新的任務(wù)場景,令基礎(chǔ)模型把原來的能力顯露出來。這是對經(jīng)典機器學(xué)習(xí)訓(xùn)練模式的革新。
以前的機器學(xué)習(xí),大部分 AI 企業(yè)采用的是定制化模式,任務(wù)來了先定義問題、收集數(shù)據(jù)訓(xùn)練、模型測試,第二個任務(wù)下發(fā)后、又再次收集定義問題、收集數(shù)據(jù)訓(xùn)練、模型測試,不僅難以復(fù)制,部署也會損耗極大的財力、人力資源。
ChatGPT 后的機器學(xué)習(xí)是大模型先行,我不需要知道具體的問題是什么,就可以先搭建模型,再分發(fā)至客戶或廠家,將模仿放置到某一個不具有訓(xùn)練大模型能力的公司,由公司去部署,再進行定義,整體流程反過來了,其本質(zhì)是激活大模型應(yīng)用至特定任務(wù)中,再定義任務(wù)、輸出結(jié)果,極大地降低了“人類反饋”數(shù)據(jù)對模型的影響,真正實現(xiàn)廣譜性、低門檻的 AI。
AI 科技評論:有看法認為,在 ChatGPT 這輪競賽中,算力和模型不再如前兩個時期那么重要,而場景和數(shù)據(jù)將成為這一輪關(guān)鍵,您是怎么看的?
汪軍:模型很重要。當前一些大模型語言能力的提升,會令人產(chǎn)生模型也具備理解人的能力,但這只是表象。僅靠幾個字來預(yù)測下一個單詞的基礎(chǔ)模型訓(xùn)練方法、難以產(chǎn)生更大智能的 AI,模型的思考能力和決策能力無法得到提升,而這兩者是作為人工智能體最基礎(chǔ)的能力,它需要知道怎樣去跟環(huán)境交互。
從這個模型角度來講,模型仍需要進行革新,Transform 這個架構(gòu)很好,但并不代表就可以止步不前,我們?nèi)匀恍枰镄碌摹⒂袆?chuàng)造力的、能產(chǎn)生思考的神經(jīng)網(wǎng)絡(luò)模型出現(xiàn)。
算力、模型、數(shù)據(jù)、場景四者都很重要,當數(shù)據(jù)和算力達到一定高度后、需要一個新的創(chuàng)新出現(xiàn),創(chuàng)新后再進行數(shù)據(jù)和算力的變量累積,再達到一定的高度和進行創(chuàng)新,這是一個螺旋上升的過程。
場景是目的,最終我們需要在場景中定義問題、解決問題,而不僅僅讓研究停留在學(xué)術(shù)層面。場景驅(qū)動之后,再使用一個新的模型或方法,用數(shù)據(jù)和算力使它達到又一個極致。
ChatGPT 的廣譜性很強,但并不代表它能夠解決所有的 AI 問題,我們應(yīng)該思考下一個場景的東西什么、能夠解決什么問題?問題的核心是,讓模型的思考能力和決策能力,真正能夠應(yīng)用到具體場景中,同時它要跟環(huán)境進行交互,跟人、跟各種各樣的場景進行交互,最終實現(xiàn)對整個能源產(chǎn)業(yè),整個人類的進步帶來很大的促進作用。
在這個情況下,我們才能孕育出真正的 AGI。這也是數(shù)研院的目標。
聯(lián)系客服