全民Long-LLM時代終于到來。
本月,中國初創(chuàng)AGI(通用人工智能)公司月之暗面宣布旗下大模型工具Kimi Chat正式升級到200萬字參數(shù)量,與五個月前該大模型初次亮相時的20萬字相比,提升十倍。Kimi Chat的升級徹底引爆市場,同時也引起長文本大模型(Long-LLM)細(xì)分賽道更加激烈的競爭。
(圖源:阿里 通義千問)
昨日,阿里旗下的大模型工具通義千問宣布迎來重磅升級,向所有人開放最高1000萬字的長文本處理能力,更重要的是,這項升級完全免費。此項升級對于專業(yè)領(lǐng)域的意義重大,例如金融、醫(yī)療、科研等從業(yè)人員,都能利用這項功能更快速地提取出核心關(guān)鍵詞,節(jié)省文檔歸整、資料整理的時間。
不僅是阿里,百度文心一言也迎來了長文本處理能力的升級。據(jù)官方資料顯示,文心一言將在下個月開放免費的200萬-500萬字長文本處理功能,較此前最高2.8萬字的文檔處理能力提升上百倍。
此外,360也在本月正式上線了360 AI搜索,通過大模型重塑,結(jié)合長文本技術(shù)在海量搜索結(jié)果中理解并生成精準(zhǔn)的答案提供給用戶。而這款A(yù)PP,也同樣是完全免費的。
(圖源:TechTalks)
長文本一直以來都是大模型工具「內(nèi)卷」的方向,如何在超百萬字的文檔里做出有效的信息整理、觀點歸納,都是技術(shù)上的難點。當(dāng)然,正如半導(dǎo)體行業(yè)與消費電子產(chǎn)品市場之間的關(guān)系一樣,很多消費者能感受到手機、電腦等產(chǎn)品性能正在飛躍式成長,但落實到實際體驗上,似乎沒有太多的變化。
而在生成式人工智能(GenAI)領(lǐng)域里,「卷」參數(shù)會是一個虛無縹緲的噱頭,還是造福人類的行為,還很難回答。
在弄清楚「卷」參數(shù)到底有何意義之前,我們首先需要了解AI企業(yè)們到底在「卷」什么東西。
與衡量手機性能以跑分分?jǐn)?shù)為準(zhǔn)一樣,大模型也有屬于自己的「性能基準(zhǔn)」——token,這是一個大模型專用的輸入、輸出基本單位。在OpenAI給出的準(zhǔn)則里,1k token等于750個英文單詞、500個中文漢字。
(圖源:OpenAI)
同理,token數(shù)字越大,能夠處理的內(nèi)容篇幅就越長。ChatGPT-4目前的參數(shù)量為8k-32k token、Anthropic公司推出的Claude為100K token,而中國初創(chuàng)企業(yè)月之暗面推出的Kimi Chat則是達(dá)到了驚人的400K token。具體到實例,Kimi Chat能夠在20秒左右讀完1篇20萬字的長篇小說、通文千義也能在數(shù)秒時間里讀完80萬字的《三體》。
(圖源:雷科技制圖/通義千問)
參數(shù)量劇增所帶來的好處自然是大模型對于更長的內(nèi)容擁有更快速的理解能力,這能夠幫助用戶從中提煉到所需的摘要、信息點,又或是直接生成整篇內(nèi)容的總結(jié)。語言大模型之所以能夠快速「引爆」整個市場,正是得益于這種速度驚人的理解能力。
(圖源:雷科技制圖/Kimi Chat)
但要徹底攻克長文本,大模型光靠堆砌token參數(shù)量并不能完全解決這個問題。超大數(shù)量的token的確能夠快速閱讀完長文檔,但段落與段落間的內(nèi)容也更容易出現(xiàn)「斷裂」的情況,這與缺少模型的預(yù)先訓(xùn)練有關(guān)。目前擁有超大token的AI方案提供商,通常在Transformer預(yù)測詞之前投喂詞元模型,使整體結(jié)論更加完整。
(圖源:Code-Llama)
比如Code-Llama,標(biāo)稱16K token參數(shù)量,但實際上是由一個個4K token窗口連接而成,最終產(chǎn)生出16k token總模型。而這就十分考驗大模型工具在窗口之間的推理能力。試想一下,在專業(yè)領(lǐng)域中,長文內(nèi)容都有緊密的邏輯性與關(guān)聯(lián)性,假如大模型推理失誤,則有可能出現(xiàn)最終生成的摘要牛頭不對馬嘴,這對于大模型工具的商業(yè)、個人應(yīng)用,都是致命的打擊。
當(dāng)然,大模型的推理能力是可以通過訓(xùn)練得到進(jìn)步的,這就不難解釋為何阿里、百度都選擇優(yōu)先將長文本模型功能免費開放給個人用戶,畢竟更多用戶加入,模型推理能力的進(jìn)化速度才能加快。
(圖源:百度 文心一言)
但免費應(yīng)用也是一件好事情,長文本的快速閱讀一直以來也是用戶在大模型各項實際應(yīng)用場景最關(guān)注的一項,比如正在寫畢業(yè)論文的學(xué)生黨,可能將超長的論文喂給大模型工具,讓其快速提煉、總結(jié),甚至找出論文中的研究結(jié)論。
阿里的通義千問將長文本檔能力的拓展方向瞄準(zhǔn)在專業(yè)領(lǐng)域的內(nèi)容理解上,尤其是金融、醫(yī)學(xué)等,對于這些行業(yè)的從業(yè)人員而言,從前需要花上幾天或是十幾天才能讀完的文章,如今只需花上十幾秒就能看完其中的精華之處。
但大模型長文本的能力遠(yuǎn)不止于此。
(圖源:育碧)
不久前,知名游戲公司育碧公開的全新「NEO NPC」技術(shù),正是Long-LLM(長文本大模型)升級后衍生的新方向。眾所周知,3A游戲大作的靈魂往往與其精彩的劇本離不開關(guān)系,其中各式各樣的游戲角色,也因其豐富的背景故事和鮮明的個性深受玩家喜好。大模型從1k token進(jìn)化到100k token,甚至是400k token,能夠讓游戲劇本完整地覆蓋到每個游戲角色里,讓他們的對話、行為,既符合游戲的世界觀,又能保證一定的靈活性。
這項能力同樣可以應(yīng)用在我們生活中最離不開的功能——搜索。
(圖源:雷科技制圖/360AI 搜索)
本月初,360在北京舉行了一場活動,旗下全新360 AI 搜索和360 AI 瀏覽器率先亮相。360 AI 搜索的核心在于“理解”、“提煉”、“總結(jié)”,即拋開傳統(tǒng)搜素引擎將所有與之相關(guān)的內(nèi)容為用戶一一呈現(xiàn)的做法,主動介入搜索結(jié)果,在數(shù)以萬計的匹配信息里提煉出最有效的信息。
360 AI 瀏覽器則是變成徹底的「AI工具」。周鴻祎解釋道,360 AI 瀏覽器的定位是學(xué)習(xí)、生產(chǎn)力工具,它能幫助用戶快速閱讀書籍、文章,了解視頻內(nèi)容等。此外,360 AI 瀏覽器未來還將擁有續(xù)寫功能,這同樣基于大模型長文檔的理解。
更重要的是,更長的文檔內(nèi)容理解有助于加速AI快速過渡到AGI(通用大模型)時代。正如前文所說,Long-LLM較之前最大的變化在于對超長文本的理解、記憶、總結(jié)能力,這些能力可以是大模型更加「擬人」,即記住樣本的真實喜好從而判斷其行為,又或是根據(jù)真實世界的物理規(guī)則,生成完全符合實際的內(nèi)容。
早在去年底,大模型長文本技術(shù)就已經(jīng)進(jìn)入到火熱階段,但卻鮮有AI企業(yè)將這項技術(shù)應(yīng)用到大模型工具中,更別提免費向大眾開放了。
OpenAI CEO Altman在接受公開訪問時也表示,由于算力不足,GPT-4的32K token短期內(nèi)無法向大眾開放。要知道,OpenAI可是當(dāng)前人工智能市場里獲投資最高的頭部企業(yè)之一,連它都空有技術(shù)卻無法落地,不免讓人對Long-LLM的未來感到擔(dān)憂。
在算力不足的前提下有沒有辦法「投機取巧」呢?當(dāng)然有。
目前主流節(jié)省算力的長文本技術(shù)通常有三種,分別是短文檔重復(fù)檢索、內(nèi)容分組檢索和模型本身的優(yōu)化。前兩種方案在技術(shù)原理上相對一致,都是將重復(fù)的內(nèi)容進(jìn)行「記憶」,節(jié)省理解時間,減少算力消耗;而模型本身的優(yōu)化則要復(fù)雜許多,相當(dāng)于用短文檔推導(dǎo)出長文檔,這非??季磕P捅旧淼慕Y(jié)構(gòu)優(yōu)化。
(圖源:英偉達(dá))
不過,無論采用哪種方法,其精度仍有待加強,這就是為何我們?nèi)栽谄诖鼜姶蟮挠嬎憧ǔ霈F(xiàn),比如前不久GTC 2024上,英偉達(dá)發(fā)布的最強計算顯卡Blackwell GB200。關(guān)于這顆當(dāng)前最強AI加速卡的詳細(xì)解析,雷科技在早前的文章里已有報道,歡迎各位訂閱查看。
在當(dāng)前,算力仍是阻礙Long-LLM成長的一大關(guān)鍵因素,但隨著英偉達(dá)、英特爾等硬件供應(yīng)商不斷加碼,這項技術(shù)在未來也將成為AI領(lǐng)域發(fā)展的風(fēng)向標(biāo)之一。
如果說OpenAI的Sora展現(xiàn)出其在AGI時代關(guān)于視頻領(lǐng)域上的想象,那么Long-LLM則是奔向全場景通用智能的基樁。
大模型長文本技術(shù)能讓AI助手記住用戶的所有你與它談?wù)撨^的話題,這讓你們之間能夠創(chuàng)造真實的回憶,而不是像從前一樣,在開始新對話之后,前面的「AI」就忘記了剛剛發(fā)生過的任何事情。這使得它能夠變成更好的AI智能客服,畢竟即便是真人,也難以記住與每位咨詢者發(fā)生過的對話。同樣的,Long-LLM還能化身數(shù)字人主播、創(chuàng)造數(shù)字偶像等等。
或許,在大模型長文本技術(shù)的支持下,AGI時代將在不久后真正到來。
聯(lián)系客服