月之暗面(Moonshot AI)可以說是國內(nèi)大模型最神秘的創(chuàng)業(yè)公司之一。其創(chuàng)始人——現(xiàn)年31歲的清華大學(xué)交叉信息學(xué)院、智源青年科學(xué)家楊植麟教授曾就職于FAIR和Google Brain,是Transformer-X與XLNet論文第一作者。這兩篇論文在深度學(xué)習(xí)領(lǐng)域影響深遠(yuǎn),在Google Scholar的引用次數(shù)之和達(dá)到了驚人的上萬次。不過,學(xué)霸的人生并非從一開始就是開掛的。小學(xué)和初中時(shí)期的楊植麟,父母對(duì)他并沒有很高的分?jǐn)?shù)期望,也因此給了他更多的自主性。高中時(shí)期,沒有任何編程基礎(chǔ)的楊植麟被選拔進(jìn)奧林匹克競(jìng)賽培訓(xùn)班,最終通過競(jìng)賽保送清華大學(xué),師從中國最知名的AI研究者之一唐杰教授,在校期間四年時(shí)間成績保持年級(jí)第一。繁重的學(xué)業(yè)之余,他還組建了Splay樂隊(duì),當(dāng)起了鼓手、創(chuàng)作者。在卡內(nèi)基梅隆大學(xué)(CMU)讀博時(shí),他又師從蘋果AI研究負(fù)責(zé)人Ruslan Salakhutdinov、谷歌首席科學(xué)家William Cohen。他用4年時(shí)間完成了一般6年才能完成的的CMU博士課程。今年6月,硅谷極具影響力的科技媒體The Information曾列出了有可能成為“中國OpenAI”的五個(gè)候選,包括MiniMax、智譜AI、光年之外以及瀾舟科技,而另一個(gè)位置就是楊植麟,其他都是公司,而他直接是一個(gè)個(gè)體。10月9日,這家成立僅半年的大模型初創(chuàng)公司 —— Moonshot AI宣布在“長文本”領(lǐng)域?qū)崿F(xiàn)了突破,推出了首個(gè)支持輸入20萬漢字的智能助手產(chǎn)品Kimi Chat。并稱,這是目前全球市場(chǎng)上能夠產(chǎn)品化使用的大模型服務(wù)中所能支持的最長上下文輸入長度。相比當(dāng)前市面上以英文為基礎(chǔ)訓(xùn)練的大模型服務(wù),Kimi Chat最大的特色就是具備較強(qiáng)的多語言能力。例如,Kimi Chat在中文上具備顯著優(yōu)勢(shì),實(shí)際使用效果能夠支持約20萬漢字的上下文,2.5倍于Anthropic公司的Claude-100k(實(shí)測(cè)約8萬字),8倍于OpenAI公司的GPT-4-32k(實(shí)測(cè)約2.5萬字)。這也是Moonshot AI在大模型領(lǐng)域做To C超級(jí)應(yīng)用的第一次嘗試。相對(duì)于楊植麟此前創(chuàng)業(yè)面向ToB 的循環(huán)智能,他反復(fù)強(qiáng)調(diào),Moonshot AI是一家 ToC 的公司,追求大模型時(shí)代的超級(jí)應(yīng)用。據(jù)悉,除了楊植麟,兩位聯(lián)合創(chuàng)始人周昕宇和吳育昕也均出身清華。團(tuán)隊(duì)還有來自Google、Meta、Amazon等巨頭的海外人才,團(tuán)隊(duì)成員約為50人。今年6月,Moonshot AI被曝出完成首輪融資,已獲得來?紅杉資本、今?資本、礪思資本等知名投資機(jī)構(gòu)近20億元的融資。楊植麟表示,目前市場(chǎng)上關(guān)于估值的表述是不準(zhǔn)確,且偏低的,后續(xù)會(huì)通過官方形式正式對(duì)外公布。首輪融資及接下來的新一輪融資,都將主要用于技術(shù)產(chǎn)品的研發(fā),以及團(tuán)隊(duì)擴(kuò)展上。當(dāng)前,大模型輸入長度普遍較低的現(xiàn)狀對(duì)其技術(shù)落地產(chǎn)生了極大制約,例如:目前大火的虛擬角色場(chǎng)景中,由于長文本能力不足,虛擬角色會(huì)輕易忘記重要信息,例如在Character AI的社區(qū)中用戶經(jīng)常抱怨“因?yàn)榻巧诙噍唽?duì)話后忘記了自己的身份,所以不得不重新開啟新的對(duì)話”。那么,擁有超長上下文輸入后的大模型實(shí)際又會(huì)有怎樣的表現(xiàn)?比如,公眾號(hào)的長文直接交給Kimi Chat ,讓它幫你快速總結(jié)分析:新鮮出爐的英偉達(dá)財(cái)報(bào),交給Kimi Chat,快速完成關(guān)鍵信息分析:出差發(fā)票太多?全部拖進(jìn)Kimi Chat,快速整理成需要的信息:發(fā)現(xiàn)了新的算法論文時(shí),Kimi Chat能夠直接幫你根據(jù)論文復(fù)現(xiàn)代碼:只需要一個(gè)網(wǎng)址,就可以在Kimi Chat中和自己喜歡的原神角色聊天:輸入整本《月亮與六便士》,讓Kimi Chat和你一起閱讀,幫助你更好的理解和運(yùn)用書本中的知識(shí):我們可以看到,當(dāng)模型可以處理的上下文變得更長后,大模型的能力能夠覆蓋到更多使用場(chǎng)景。同時(shí),由于可以直接基于全文理解進(jìn)行問答和信息處理,大模型生成的“幻覺”問題也可以得到很大程度的解決。目前,Moonshot AI 的智能助手產(chǎn)品 Kimi Chat 已開放內(nèi)測(cè)。通常,從技術(shù)上看,參數(shù)量決定了大模型支持多復(fù)雜的“計(jì)算”,而能夠接收多少文本輸入(即長文本技術(shù))則決定了大模型有多大的“內(nèi)存”,兩者共同決定模型的應(yīng)用效果。支持更長的上下文意味著大模型擁有更大的“內(nèi)存”,從而使得大模型的應(yīng)用更加深入和廣泛:比如通過多篇財(cái)報(bào)進(jìn)行市場(chǎng)分析、處理超長的法務(wù)合同、快速梳理多篇文章或多個(gè)網(wǎng)頁的關(guān)鍵信息、基于長篇小說設(shè)定進(jìn)行角色扮演等等,都可以在超長文本技術(shù)的加持下完成。楊植麟指出,長文本技術(shù)的開發(fā)固然是當(dāng)前大模型發(fā)展的重要方向,存在一些對(duì)效果損害很大的“捷徑”,主要包含以下幾個(gè)方面:·“金魚”模型,特點(diǎn)是容易“健忘”。(例如,無法從一篇10萬字的用戶訪談錄音轉(zhuǎn)寫中提取最有價(jià)值的10個(gè)觀點(diǎn))。·“蜜蜂”模型,特點(diǎn)是只關(guān)注局部,忽略整體。(例如,無法從50個(gè)簡歷中對(duì)候選人的畫像進(jìn)行歸納和總結(jié))。
·“蝌蚪”模型,通過減少參數(shù)量(例如減少到百億參數(shù))來提升上下文長度,雖然能支持更長上下文,但是大量任務(wù)無法勝任。
“簡單的捷徑無法達(dá)到理想的產(chǎn)品化效果。為了真正做出可用、好用的產(chǎn)品,就不能走虛假的捷徑,而應(yīng)直面挑戰(zhàn)?!睏钪谗胝f到。訓(xùn)練層面,想訓(xùn)練得到一個(gè)支持足夠長上下文能力的模型,不可避免地要面對(duì)如下困難:·如何讓模型能在幾十萬的上下文窗口中,準(zhǔn)確的 Attend 到所需要的內(nèi)容,不降低其原有的基礎(chǔ)能力?·在千億參數(shù)級(jí)別訓(xùn)練長上下文模型,帶來了更高的算力需求和極嚴(yán)重的顯存壓力,傳統(tǒng)的 3D 并行方案已經(jīng)難以無法滿足訓(xùn)練需求。
·缺乏充足的高質(zhì)量長序列數(shù)據(jù),如何提供更多的有效數(shù)據(jù)給模型訓(xùn)練?
推理層面,在獲得了支持超長上下文的模型后,如何讓模型能服務(wù)眾多用戶,同樣要面臨艱巨挑戰(zhàn):·Transformer模型中自注意力機(jī)制(Self Attention)的計(jì)算量會(huì)隨著上下文長度的增加呈平方級(jí)增長,用戶需要等待極其長的時(shí)間才能獲得反饋。·超長上下文導(dǎo)致顯存需求進(jìn)一步增長:以 1750 億參數(shù)的 GPT-3為例,目前最高單機(jī)配置( 80 GiB * 8 )最多只能支持 64k 上下文長度的推理,超長文本對(duì)顯存的要求可見一斑。
·極大的顯存帶寬壓力:英偉達(dá)A800 或 H800的顯存帶寬高達(dá) 2-3 TiB/s,但面對(duì)如此長的上下文,樸素方法的生成速度只能達(dá)到 2~5 tokens/s,使用的體驗(yàn)極其卡頓。
總之,Moonshot AI的技術(shù)團(tuán)隊(duì)通過創(chuàng)新的網(wǎng)絡(luò)結(jié)構(gòu)和工程優(yōu)化,克服上述困難完成了大內(nèi)存模型的產(chǎn)品化,不依賴于滑動(dòng)窗口、降采樣、小模型等對(duì)性能損害較大的“捷徑”方案,才有了這個(gè)支持20萬字輸入的千億參數(shù)LLM產(chǎn)品。楊植麟此前曾表示,無論是文字、語音還是視頻,對(duì)海量數(shù)據(jù)的無損壓縮可以實(shí)現(xiàn)高程度的智能。而無損壓縮等同于對(duì)數(shù)據(jù)聯(lián)合概率分布的預(yù)測(cè),這?找到了與多模態(tài)數(shù)據(jù)?成的契合點(diǎn)。多模態(tài)數(shù)據(jù)的?成本質(zhì)上也是在做數(shù)據(jù)的聯(lián)合概率分布預(yù)測(cè),??上下?窗?技術(shù)對(duì)實(shí)現(xiàn)多模態(tài)?關(guān)重要。Moonshot AI之所以選擇使?擴(kuò)展上下?的策略來提升?模型技術(shù)的應(yīng)?效果,源于團(tuán)隊(duì)對(duì)?模型技術(shù)底層的認(rèn)知、技術(shù)能?以及對(duì)應(yīng)?需求的捕捉。他相信,更?的上下文長度可以為大模型應(yīng)?帶來全新的篇章,促使?模型從 LLM時(shí)代進(jìn)?L(Long)LLM時(shí)代。更長的上下文長度只是Moonshot AI在下一代大模型技術(shù)上邁出的第一步。
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。