來(lái)源|光子星球(ID:TMTweb)
撰文 | 吳坤諺
編輯 | 王 潘
厄爾尼諾指數(shù)快速增加,史上最熱夏天即將到來(lái),但比氣候更“火熱”的是科技互聯(lián)網(wǎng)行業(yè)的大模型淘金潮。
今年年初,各方大佬下場(chǎng)創(chuàng)業(yè)打響了淘金熱的第一槍?zhuān)o接著的是3月開(kāi)始的大廠(chǎng)扎堆布局,連高校與國(guó)家隊(duì)都爭(zhēng)取跑步入場(chǎng),淘金熱愈演愈烈。5月6日,我們又迎來(lái)了一位玩家入場(chǎng),科大訊飛發(fā)布旗下認(rèn)知大模型星火。
興許是大眾與業(yè)界對(duì)于密集發(fā)布的大模型有些“脫敏”,訊飛星火發(fā)布的消息未能引起行業(yè)的熱烈反響。如今的局面其實(shí)并不意外,因?yàn)樯虡I(yè)社會(huì)的發(fā)展總是需要新的故事。早在今年2月,ChatGPT的出圈就為AI板塊的科大訊飛狠狠地拉了一波股價(jià),GPT概念股至今仍廣為投資者所關(guān)注。
據(jù)了解,“星火認(rèn)知大模型”是純文本模型,僅支持文本內(nèi)容的輸入和輸出,多模態(tài)交互需要自升級(jí)產(chǎn)品星火Pro獲取。而通過(guò)TTS(從文本到語(yǔ)音)實(shí)現(xiàn)語(yǔ)音提問(wèn)功能可以說(shuō)是意外之喜,也是科大訊飛有別于一眾大廠(chǎng)的特點(diǎn)之一。
此外,本次發(fā)布會(huì)與此前各家大模型發(fā)布會(huì)最大的不同在于,科大訊飛CEO劉慶峰為大家“畫(huà)了一張帶有時(shí)間線(xiàn)的大餅”:6月9日前,訊飛星火大模型將突破開(kāi)放式問(wèn)答,實(shí)現(xiàn)對(duì)話(huà)能力和數(shù)學(xué)能力的再升級(jí);8月15日前代碼能力會(huì)上大臺(tái)階,多模態(tài)交互能力再升級(jí),在10月24日前,星火大模型將對(duì)標(biāo)ChatGPT,在中文能力上超過(guò)ChatGPT,在英文能力上與ChatGPT相當(dāng)。
這是一個(gè)管理預(yù)期的故事。
回顧近十年的商業(yè)新故事,其中既有智能手機(jī)、新能源、云計(jì)算等光環(huán)(aura)加身的神話(huà),也不乏元宇宙、NFT這類(lèi)被祛魅后步入暗夜的案例。每一個(gè)故事在開(kāi)始之時(shí)都宣稱(chēng)將開(kāi)啟一個(gè)新時(shí)代、新紀(jì)元,宏大的敘事為其披上克里斯瑪?shù)耐庖拢却溥M(jìn)入商業(yè)場(chǎng)景后被市場(chǎng)驗(yàn)證。
反觀(guān)科大訊飛,大模型是它不得不抓住的光環(huán)。
大模型是AI賽道重新洗牌的機(jī)會(huì)已是共識(shí)。而且自科大訊飛近年來(lái)的業(yè)務(wù)發(fā)展路線(xiàn)看,其引以為傲的語(yǔ)音識(shí)別賽道受困于創(chuàng)新者窘境,視覺(jué)領(lǐng)域也有AI四小龍后來(lái)居上,嘗試拓展的智慧醫(yī)療、智慧金融業(yè)務(wù)的表現(xiàn)也只是不夠出彩,在2022年整體營(yíng)收中占比均不足3%。
回歸大模型本身,隨著迄今為止人類(lèi)歷史上用戶(hù)增長(zhǎng)速度最快的ChatGPT不得不關(guān)閉付費(fèi)渠道,一場(chǎng)屬于科技互聯(lián)網(wǎng)的“西進(jìn)運(yùn)動(dòng)”儼然開(kāi)始進(jìn)入中場(chǎng)。
01
LLM(大語(yǔ)言模型)、Token(文本單位)、參數(shù),為4月內(nèi)幾乎未曾間斷的大模型發(fā)布會(huì)所吸引的VC們一面接收這場(chǎng)寶貴的知識(shí)爆炸,一面搖身一變成為AI領(lǐng)域的深耕者。按本山大叔的話(huà)來(lái)說(shuō),就是“聰明的智商又占領(lǐng)高地了”。
先行的創(chuàng)業(yè)者們?cè)缭缤ㄟ^(guò)自身過(guò)硬的攢局能力拉來(lái)了數(shù)輪融資,后來(lái)的創(chuàng)業(yè)者們也在抓緊忽悠風(fēng)投上車(chē),勇立時(shí)代潮頭一起吃肉喝湯。
只是直到目前,無(wú)論是最早發(fā)布的大模型文心一言還是后續(xù)開(kāi)放測(cè)試或在發(fā)布會(huì)上實(shí)機(jī)演示的大模型都距離ChatGPT存在一定距離,包括5月6日發(fā)布的科大訊飛星火。
星火發(fā)布會(huì)上,劉慶峰現(xiàn)場(chǎng)演示星火的能力并提出了評(píng)測(cè)大模型的覆蓋7大類(lèi)481個(gè)細(xì)分任務(wù)類(lèi)型。盡管真機(jī)實(shí)測(cè)勇氣可嘉,測(cè)試內(nèi)容出錯(cuò)較少且響應(yīng)快速,整體的情感理解與邏輯線(xiàn)也都在線(xiàn),但整體測(cè)試類(lèi)別還是以簡(jiǎn)單的文字生成為主。這一塊基本屬于科大訊飛的傳統(tǒng)藝能,并不能看出自去年12月起至今近6個(gè)月的數(shù)據(jù)投喂成果。
換句話(huà)說(shuō),目前的生成內(nèi)容還無(wú)法看出星火達(dá)到了智能涌現(xiàn)的標(biāo)準(zhǔn)。不過(guò)考慮到科大訊飛的數(shù)據(jù)要素來(lái)源主要在于教育、醫(yī)療、汽車(chē)等細(xì)分領(lǐng)域,目前的表現(xiàn)也就不難理解了。
本次發(fā)布會(huì)上科大訊飛還展示了星火搭載下的學(xué)習(xí)機(jī)、虛擬人、汽車(chē)座艙域智能辦公演示,這既是亮點(diǎn)也是槽點(diǎn)。亮點(diǎn)在于星火大模型在誕生之初就已經(jīng)找到了明確的商業(yè)化落地路徑,其中教育硬件與辦公硬件也是科大訊飛過(guò)去兩年內(nèi)的營(yíng)收主力;槽點(diǎn)在于這幾條路徑相對(duì)于大模型而言顯得過(guò)于狹窄,可能是星火在測(cè)試時(shí)所表現(xiàn)出的能力還尚未達(dá)到賦能千行百業(yè)的水平。
不過(guò),學(xué)霸未嘗就是未來(lái)混得最好的。在大模型競(jìng)爭(zhēng)劇烈的當(dāng)下,率先占領(lǐng)垂直領(lǐng)域應(yīng)用的高地并進(jìn)入自我造血反哺大模型訓(xùn)練的良性循環(huán),未嘗不是一條可行的路徑。
更值得注意的是,劉慶峰在發(fā)布會(huì)結(jié)束后透露,星火大模型的算力硬件主要由華為提供,當(dāng)前并未受到限制。
由此我們也不難看出,一是自身是否有算力儲(chǔ)備在大模型訓(xùn)練中也許沒(méi)那么重要,尤其是并不是所有人都將大模型定位于“通用”級(jí)別的時(shí)候。相反,數(shù)據(jù)要素的重要性更加凸顯,這在當(dāng)初百度、阿里等坐擁多領(lǐng)域高質(zhì)量語(yǔ)料的頭部大廠(chǎng)發(fā)布大模型時(shí)尚不明顯,如今科大訊飛在教育領(lǐng)域的演示成果與泛領(lǐng)域演示成果的鮮明對(duì)比足以說(shuō)明數(shù)據(jù)的重要性。
二是“送水人”式的“技術(shù)商人”路徑在大模型井噴的當(dāng)下切實(shí)可行。一方面送水人可以通過(guò)租售算力甚至訓(xùn)練方法,在獲利的同時(shí)解決算力冗余,另一方面收水人也可以節(jié)約大模型訓(xùn)練的成本,杜絕內(nèi)卷和重復(fù)基礎(chǔ)設(shè)施建設(shè),讓大模型相對(duì)不再那么“重資產(chǎn)”。
在劉慶峰的規(guī)劃中,星火將在10月24日達(dá)到中文能力超越ChatGPT,英文語(yǔ)料能力相當(dāng)。且不論對(duì)標(biāo)的是GPT3.5還是GPT4,我們不妨以此時(shí)間為節(jié)點(diǎn),到時(shí)候再審視國(guó)內(nèi)大模型與OpenAI的差距,是越來(lái)越小還是越來(lái)越大。
02
訊飛星火的發(fā)布從一方面也可以看做是從李開(kāi)復(fù)理解的AI 1.0演進(jìn)為AI 2.0,是從NPL(自然語(yǔ)言處理)、CV(計(jì)算機(jī)視覺(jué))到海量數(shù)據(jù)喂養(yǎng)下具備跨領(lǐng)域知識(shí)與智能交互能力的大模型。這是在李開(kāi)復(fù)萬(wàn)字演講中廣為流傳的'AI 2.0'范式。
有能力者做通用大模型,稍有欠缺者如科大訊飛,也要根據(jù)自有業(yè)務(wù)線(xiàn)如醫(yī)療、教育等場(chǎng)景做規(guī)模稍小的大模型。這是一個(gè)足夠宏大的敘事,尤其是在國(guó)內(nèi)多位大佬呼吁將所有應(yīng)用接入大模型重做一遍的話(huà)術(shù),充滿(mǎn)了即刻為一項(xiàng)技術(shù)突破迅速找到場(chǎng)景進(jìn)行商業(yè)化落地的渴望。
如今的火熱場(chǎng)景我們并不陌生,近年來(lái),我們?yōu)榱吮阌趥鞑ヅc理解,往往會(huì)以序列號(hào)化的話(huà)術(shù)來(lái)形容技術(shù)范式的迭代演進(jìn)。意義建構(gòu)理論的學(xué)者認(rèn)為,這是將信息的尋求與使用視作一種溝通實(shí)踐模型,幫助人進(jìn)行信息接收的做法。
從互聯(lián)網(wǎng)泡沫后提出的Web1.0和Web2.0到通信領(lǐng)域的4G和5G,以及AI領(lǐng)域,序列號(hào)給人以最直白的觀(guān)感,為我們帶來(lái)無(wú)限的想象空間,這個(gè)視角下的技術(shù)可以在草蛇灰線(xiàn)之中無(wú)限升維演進(jìn)。越是這樣帶有技術(shù)革命色彩的故事,越是能吸引關(guān)注與投資,越具備商業(yè)化落地的可能性。
只是能否落地卻是未知數(shù),就像大模型涌現(xiàn)現(xiàn)象的發(fā)生概率只有0%和100%。
在資深機(jī)器學(xué)習(xí)與應(yīng)用開(kāi)發(fā)者楊軍看來(lái),市場(chǎng)上的“百模大戰(zhàn)”與投資圈的狂熱是在巨量資源投入后,廣譜性質(zhì)的壓強(qiáng)效應(yīng)所致,但是在這之中不可避免泡沫的存在。“我不太認(rèn)可在介紹ChatGPT相關(guān)技術(shù)時(shí)引入的春秋筆法或過(guò)于PR的味道,總覺(jué)得這會(huì)把一個(gè)原本正常該由技術(shù)驅(qū)動(dòng)的事物的演進(jìn)節(jié)奏變得混亂了。關(guān)鍵的技術(shù)需要回歸到客觀(guān)層面理解,才更有利于這個(gè)方向的健康發(fā)展。”
春秋筆法對(duì)新生事物的揠苗助長(zhǎng)在A(yíng)IGC前一輪Web3風(fēng)口中隨處可見(jiàn),尤其是結(jié)合了VR、AR后誕生的元宇宙賽道??萍蓟ヂ?lián)網(wǎng)從業(yè)者必須銘記的案例是Facebook更名Meta,梭哈元宇宙后的窘境。反觀(guān)國(guó)內(nèi),一直以來(lái)商業(yè)化都是我們的強(qiáng)項(xiàng),反之也遭到不少缺乏研發(fā)耐心、忽略底層技術(shù)的詬病。
楊軍透露:“我知道的一些這個(gè)行業(yè)里比較資深的模型從業(yè)人士,似乎很多都因?yàn)楸池?fù)了投資方的壓力,更多考慮的是商業(yè)變現(xiàn),而不是底層技術(shù)的創(chuàng)新和突破?!?/span>
在商業(yè)化變現(xiàn)前,大模型需要填滿(mǎn)的洞有多深?
由英偉達(dá)給出的GPT3訓(xùn)練數(shù)據(jù),參數(shù)規(guī)模為1750億,訓(xùn)練語(yǔ)料為30億 tokens,那么訓(xùn)練一個(gè)周期需要26天,采用租賃方式以8卡A100訓(xùn)練的成本超256萬(wàn)美元/月,即使忽略人力成本,硬件成本最低也需要大約2億人民幣一年。楊軍稱(chēng),這已經(jīng)是很保守的估計(jì),系統(tǒng)故障、策略調(diào)整等因素也未曾考慮,人力成本更是在技術(shù)創(chuàng)新領(lǐng)域的大頭,如果希望提高效率,以并行方式實(shí)驗(yàn)探索,那么硬件成本還需追加一倍。
5年時(shí)間,25~30億不計(jì)回報(bào)的總投入,這是客觀(guān)技術(shù)視角下做好一個(gè)GPT4前兩代的大模型所需要的準(zhǔn)備。這筆研發(fā)投入已經(jīng)接近于半導(dǎo)體了。
楊軍對(duì)此憂(yōu)慮頗多,尤其是在風(fēng)投方面?!霸谖矣邢薜拈啔v里,看到了不少風(fēng)投一開(kāi)始說(shuō)支持情懷,隨著時(shí)間推移,會(huì)對(duì)變現(xiàn)和尋求接盤(pán)退出越來(lái)越饑渴,最終以各種方式干預(yù)到項(xiàng)目執(zhí)行層面。不確定性較強(qiáng)的技術(shù)攻關(guān)遭遇的問(wèn)題,需要行業(yè)層面來(lái)克服”。
在技術(shù)革命后的第一次格局重構(gòu)中,狂熱者往往被浪潮無(wú)情裹挾,重重拍在淺灘上。好比去年吸收了數(shù)千億美元的Web3,其大本營(yíng)新加坡如今已有不少?gòu)臉I(yè)者租不起房,吃不起飯。
我們對(duì)大模型的暢想究竟是像APUS李濤所言“爭(zhēng)奪下一代操作系統(tǒng)的話(huà)語(yǔ)權(quán)”,還是針對(duì)某個(gè)具體場(chǎng)景和領(lǐng)域的賦能,亦或是在浪潮之中尋求資金、博取熱度,無(wú)論哪種都需要讓大模型褪去克里斯瑪,客觀(guān)地看待與探求。
03
在眾人一擁而上的時(shí)候,相對(duì)冷清的路徑反而更有可能成功。
比如在星火上被驗(yàn)證的“送水人”路徑,除華為外,字節(jié)旗下火山引擎、騰訊云等玩家已在4月這個(gè)節(jié)點(diǎn)對(duì)外明確了自身“送水人”的角色,通過(guò)提供算法優(yōu)化、算力、數(shù)據(jù)飛輪等技術(shù)棧服務(wù)來(lái)做淘金熱中的服務(wù)商。路徑明晰競(jìng)對(duì)少的同時(shí)還可以一定程度上“分?jǐn)偂贝竽P偷挠?xùn)練成本。
這條商業(yè)路徑早在淘金運(yùn)動(dòng)中便已驗(yàn)證,但成功故事的背后是淘金運(yùn)動(dòng)的“內(nèi)卷”特性,才會(huì)誕生服務(wù)的需求空間,同時(shí)“送水人”還需要在這種上游配套式或衍生周邊式服務(wù)中占據(jù)壟斷地位。“送水人”亞默爾原本只是平平無(wú)奇的淘金者之一,直到他第一時(shí)間抓住了淘金者對(duì)水的需求并通過(guò)開(kāi)挖水渠的方式打造了一個(gè)專(zhuān)屬于他自己的飲用水生產(chǎn)線(xiàn)。
在如今的大模型中局,時(shí)間問(wèn)題無(wú)需考慮,也不存在有誰(shuí)能在某項(xiàng)服務(wù)中能占據(jù)壟斷地位。那么討論的重點(diǎn)便在于其提供的服務(wù)。
大模型的服務(wù)需求則可以用AI三要素來(lái)概括,分別是算力、算法與數(shù)據(jù),其中算力是相對(duì)最缺乏競(jìng)爭(zhēng)力的領(lǐng)域。因?yàn)樗懔υ谔越鹫叩囊暯窍聝H僅只是成本,而在送水人的視角下卻是商品,單純提供算力難免會(huì)陷入價(jià)格戰(zhàn)的怪圈,反過(guò)來(lái)掣肘自己的大模型訓(xùn)練。
算法與數(shù)據(jù)則與此相反,兩者均可以提高大模型的訓(xùn)練效率,甚至直接影響訓(xùn)練成果。只是長(zhǎng)遠(yuǎn)看來(lái),這兩項(xiàng)服務(wù)的前景也不甚樂(lè)觀(guān)。
算法方面,OpenAI就是最好的例子,被開(kāi)發(fā)者戲稱(chēng)為“CloseAI”的原因之一便是其堅(jiān)持閉源。大模型訓(xùn)練中的策略、算法是可以作為企業(yè)護(hù)城河的核心資產(chǎn),“送水人”開(kāi)放給外界使用的程度將直接關(guān)聯(lián)自家大模型的競(jìng)爭(zhēng)強(qiáng)度,數(shù)據(jù)方面也是如此。反之,購(gòu)買(mǎi)大模型服務(wù)的企業(yè)也會(huì)要求算法與數(shù)據(jù)的安全,爭(zhēng)取在“安全線(xiàn)”之下有限的互幫互助。
目前看來(lái),“送水人”們除非退出通用大模型的競(jìng)爭(zhēng),否則送水的動(dòng)作也很可能只是在成本控制上的錦上添花,真正的“送水人”還得是英偉達(dá)。這也意味著,我們需要另尋更切實(shí)的路徑。
日前,OpenAI關(guān)閉付費(fèi)渠道已在業(yè)內(nèi)引起不小的討論,最有可能的原因是GPT4在接入微軟全棧應(yīng)用后算力吃緊,只能暫時(shí)放棄C端增長(zhǎng)來(lái)穩(wěn)住大金主。而OpenAI聯(lián)合創(chuàng)始人兼CEO Sam Altman更是公開(kāi)表示OpenAI已接近LLM的極限,認(rèn)為L(zhǎng)LM的規(guī)模不再是衡量模型質(zhì)量的重要指標(biāo),未來(lái)將有更多的方式來(lái)提升模型的能力和效用。
換句話(huà)說(shuō),大模型中場(chǎng)之際,OpenAI在否決了一昧追求規(guī)模的路徑同時(shí)為行業(yè)指出了大模型的迭代新路,即通過(guò)優(yōu)化訓(xùn)練策略、全局調(diào)度以減少投入成本,同時(shí)將笨重的大模型轉(zhuǎn)向小而美的方向發(fā)展。
楊軍對(duì)此頗有研究,并對(duì)此介紹了部分海外已經(jīng)開(kāi)始的創(chuàng)新案例。
關(guān)注系統(tǒng)優(yōu)化并結(jié)合模型訓(xùn)練策略進(jìn)行全鏈路訓(xùn)練優(yōu)化的公司MosaicML提出,通過(guò)將參數(shù)降低至300億同時(shí)將Token數(shù)提升至61億,以256張40GB的A100為資源訓(xùn)練一個(gè)周期,只需要36天即可得到與GPT3相同質(zhì)量的訓(xùn)練結(jié)果,而成本僅需要88萬(wàn)美元,幾乎是GPT3原始訓(xùn)練成本的三分之一。除了訓(xùn)練策略的優(yōu)化外,通過(guò)對(duì)CPU主存+磁盤(pán)外存+GPU顯存的使用進(jìn)行全局調(diào)度優(yōu)化,讓低端顯卡serve大模型成為可能。
“一款A(yù)I框架解決的其實(shí)是上層的業(yè)務(wù)模型需求到底層計(jì)算硬件執(zhí)行的映射問(wèn)題,在性能足夠的情況下,僅拼性能就可能陷入了'技術(shù)有深度但競(jìng)爭(zhēng)呈紅?!膽?zhàn)場(chǎng)?!?/span>
為了避免這樣的競(jìng)爭(zhēng),不少大模型在推出時(shí)便在宣傳上做了一定的區(qū)分,關(guān)鍵在于是否存在“通用”二字。這其中有源自NPL基底并在數(shù)個(gè)領(lǐng)域直接落地的星火、根植辦公場(chǎng)景的金山“WPS AI”、立足于問(wèn)答社區(qū)生態(tài)的知乎“知海圖AI”等,其共同點(diǎn)在于針對(duì)具體場(chǎng)景,以對(duì)行業(yè)的縱深理解與數(shù)據(jù)支撐為基礎(chǔ),以大模型的“涌現(xiàn)”能力為跳板,實(shí)際上卻是披著通用大模型外衣的中小模型。
送水人也可以參考這樣的“技術(shù)商人“的思維。在楊軍看來(lái),與其參與無(wú)謂的hardcore“內(nèi)卷”,不如去思考自己的技術(shù)點(diǎn)在可以在完整商業(yè)鏈中發(fā)揮什么功能,完成什么閉環(huán),通過(guò)能力與方向的差異化發(fā)掘更多價(jià)值。
保持一個(gè)啃硬骨頭的決心,開(kāi)闊技術(shù)商業(yè)化的視野,是大模型玩家們的必修課。相對(duì)追求規(guī)模,我們與海外在小而美方向上的研究反而在時(shí)間節(jié)點(diǎn)上更相近,這也意味著更大的機(jī)會(huì)。無(wú)論是預(yù)算與資源相對(duì)緊張的創(chuàng)業(yè)公司還是有底氣隨時(shí)掏出數(shù)千張A卡的大廠(chǎng),都需要認(rèn)識(shí)到這點(diǎn)。
聯(lián)系客服