成立于 2021 年 12 月的 MiniMax,已經(jīng)擁有自己的大模型和應(yīng)用產(chǎn)品。
以 ChatGPT 為代表的 AI 技術(shù),將從根本上改變每一個軟件服務(wù)類別——微軟總裁納德拉的這句斷言,今天已經(jīng)成為全球大部分科技從業(yè)者的共識。
但當(dāng)國外科技行業(yè)熱火朝天投入這波浪潮中時,中國從業(yè)者們卻悲哀地發(fā)現(xiàn):國內(nèi)在大模型領(lǐng)域幾乎是一片空白。只有幾個大公司零星宣布將在未來推出自己的大模型,以及幾個明星創(chuàng)業(yè)者透露將在這個領(lǐng)域創(chuàng)業(yè)。
在這樣的背景下,創(chuàng)業(yè)公司 MiniMax 的「橫空出世」無疑是一個意外的驚喜。這家一年半前創(chuàng)立的公司,從成立的第一天起以大模型作為主要的研發(fā)方向。今天已經(jīng)擁有三個模態(tài)的基礎(chǔ)大模型,涉及語音、圖像、文本不同內(nèi)容的生成。
基于自研的大模型,他們已經(jīng)推出了一個智能對話機器人生成平臺 Glow,目前已經(jīng)有近五百萬的用戶和每天上億級的用戶調(diào)用次數(shù)。
在 ChatGPT 爆火前,做大模型這件事是一個投入巨大、賽道偏門,商業(yè)化前景卻非常不明朗的「笨生意」。別說普通創(chuàng)業(yè)者,就連掌握眾多資源的互聯(lián)網(wǎng)巨頭,也鮮有涉獵或者投入有限。而這也是今天國內(nèi)大模型一片空白的直接原因。
正因如此,MiniMax 的存在令人好奇。和幾名早期成員和技術(shù)骨干聊過后,我們發(fā)現(xiàn)這是一批經(jīng)歷、背景迥異,卻對 AI 抱有持續(xù)思考和探索的技術(shù)理想主義者。他們因為信仰 AGI(通用人工智能)而聚在一起。
在人們感嘆技術(shù)長期主義難以存在的時候,這樣團(tuán)隊的出現(xiàn),似乎正是人們所期待的。
01
三個大模型
從成立的第一天起,MiniMax 就選擇以大模型作為主要的研發(fā)方向。
目前,MiniMax 擁有能力各異、三個模態(tài)的基礎(chǔ)大模型(foundation model) :分別是Text-to-Text、Text-to-Visual、Text -to- Audio。
這三個模型分別對應(yīng)內(nèi)容在不同形態(tài)之間的轉(zhuǎn)換與生成。Text-to-Text 對應(yīng)文本與文本間的轉(zhuǎn)換(比如可以通過能夠通過生成的文本回答提問),Text-to-Visual 對應(yīng)文本與視覺圖像之間的轉(zhuǎn)換(比如可以通過文字描述生成圖像),Text -to-Audio 則是依據(jù)文本生成聲音。
大模型是一個復(fù)雜的系統(tǒng)工程,MiniMax 聯(lián)合創(chuàng)始人 Allen(楊斌)用造火箭來形容——涉及到的技術(shù)、論文是公開的,但不意味著一定能夠把火箭造出來。而作為創(chuàng)業(yè)公司,需要在有限的時間和資源中實現(xiàn)既定的目標(biāo)。
團(tuán)隊早期成員葛溫形容,「每個技術(shù)判斷,都會直接影響到最后的效果,每一個步驟都是串聯(lián)在一起的,因此每個決定都是重要的?!苟鴪F(tuán)隊成員的技術(shù)背景各異,這讓他們能夠視角互補,充分討論。
Allen 告訴極客公園,團(tuán)隊設(shè)立的第一個里程碑是在半年內(nèi)把三個大模型都做到世界領(lǐng)先水平。這考驗團(tuán)隊在一個個技術(shù)選擇中做出正確的決策,也促使他們向更基礎(chǔ)更底層的技術(shù)做更多探索。Allen 說,「我們在底層技術(shù)上,做了通常創(chuàng)業(yè)公司不太會做的事情,」
MiniMax 自研技術(shù)的最底層是為支持大模型而搭建的硬件基礎(chǔ)設(shè)施——以高效的 GPU 提供穩(wěn)定可靠的并行計算能力,支持語音、文本、視覺多模態(tài)的計算,自訓(xùn)練計算能力強,同時也有很強的適應(yīng)能力。通過這個基礎(chǔ)設(shè)施層,將數(shù)據(jù)和算力作為養(yǎng)料提供給大模型。
除了技術(shù)先進(jìn)外,大模型的最終目的是對外輸出服務(wù)。去年 11 月,公司發(fā)布了第一個產(chǎn)品:Glow。經(jīng)過四個月,這個 App 已經(jīng)有了近五百萬用戶。
有用戶將 Glow 形容為「第一人稱視角下的開放世界」,團(tuán)隊覺得很貼切。玩家通過和 AI 驅(qū)動的智能體對話,來建造自己的世界。Glow 能夠提供和多個不同「人設(shè)」智能體對話的體驗,玩家可以選擇已經(jīng)存在的智能體,比如可能是小說《三體》中的某個角色,也可以自己用語言描述性格,「捏」出屬于自己的智能體。
Glow 對于 MiniMax 的意義在于跑通了大模型和現(xiàn)實世界的交互。通過這個產(chǎn)品,大模型的能力通過具體的形式服務(wù)于用戶。比如,用戶可以通過語言描述,生成一張智能體的頭像,這就是從 Text-visual 的圖像生成能力;不同的智能體,擁有不同的音色和音質(zhì),這是 Text-audio 的語音生成。
在 Glow 上可以創(chuàng)建屬于自己的智能體|來源:Glow
Glow 目前每天有上億次的用戶調(diào)用。要將大模型的能力如此廣泛地提供給人們,在技術(shù)上需要解決低成本、高效率、穩(wěn)定性的挑戰(zhàn)。因此在模型之上,MiniMax 搭建了一個推理平臺(Computing Platform)。
Allen 形容「怎么讓一個很重的東西用起來很輕?這其實是一件工程難度非常大的事情?!刮磥恚@個推理平臺還會支持更多的應(yīng)用,通過這些應(yīng)用,模型與現(xiàn)實世界中人們的行為廣泛交互,而數(shù)據(jù)將引導(dǎo)模型持續(xù)迭代。
02
信仰 AGI 的團(tuán)隊
MiniMax 成立于 2021 年 12 月。團(tuán)隊的幾名核心技術(shù)骨干,大多來自海內(nèi)外知名的 AI 公司和科技大廠。
葛溫(花名)畢業(yè)于約翰霍普金斯大學(xué),在大學(xué)的實驗室里研究了 10 年的計算機自然語言。葛溫畢業(yè)前的最后一份實習(xí)在美國微軟總部,期間接觸到生成式的對話系統(tǒng),技術(shù)的可能性讓他興奮。
「做自然語言處理,想做的就是一個能聽懂人話,能跟人交流的一個算法、模型,或者智能體,這是我讀這個專業(yè)的初衷」,能做一個與真實世界的大量用戶交互,并從中反饋、不斷迭代的語言模型,是最吸引他加入 MiniMax 這樣一家創(chuàng)業(yè)公司的地方。
創(chuàng)始員工大蔥(花名)此前就職于商湯,深信 AI 的可能性,但經(jīng)歷過上一波 AI 浪潮的他,也深刻認(rèn)識到上一代 AI 技術(shù)范式的局限性。
過去,AI 技術(shù)團(tuán)隊的工作方式是根據(jù)具體的應(yīng)用場景去定制一個個模型,模型越來越多,卻無法真正打通,長期維護(hù)成千上百個模型不太現(xiàn)實。即使花費了大量精力,讓技術(shù)水平不斷提高,AI 技術(shù)在現(xiàn)實世界里產(chǎn)生的影響卻越來越有限。他從 2018 年 GPT-1 出來時就開始關(guān)注語言模型進(jìn)展,逐漸意識到,語言或許能夠作為交互界面,整合不同模態(tài)的技術(shù)。
Allen 的研究背景是計算機視覺博士,海外留學(xué)期間,他曾經(jīng)是 Uber ATG 研究院的創(chuàng)始成員,經(jīng)歷過了整個研究院的搭建,也經(jīng)歷過 Uber 自動駕駛團(tuán)隊被打包出售,之后作為創(chuàng)始成員加入自動駕駛初創(chuàng)公司 Waabi,對于基于數(shù)據(jù)驅(qū)動的端到端系統(tǒng)有豐富經(jīng)驗。2021 年,Allen 認(rèn)識了現(xiàn)在的合伙人,他們不時交流最新論文中的突破。一步步的突破,讓他覺得 AGI(通用人工智能)越來越近了。
對團(tuán)隊而言,2020 年到 2021 年發(fā)生在不同行業(yè)的三件小事,讓他們對 AGI 的到來產(chǎn)生了堅定的判斷。
第一件事是 2020 年 6 月 GPT-3 的發(fā)布。模型的參數(shù)量從過去的百萬級、億級上升到千億級,訓(xùn)練方式也從過去的數(shù)據(jù)標(biāo)記變成在各種語料中學(xué)習(xí)。參數(shù)量和數(shù)據(jù)量雙雙量變引發(fā)了神奇的質(zhì)變,讓 GPT-3 具有了推理能力,并且形成了過去的 AI 模型所不具備的通用泛化能力。
第二件事是半年后的 2021 年 1 月,跨模態(tài)模型 CLIP 問世。CLIP 不僅能夠?qū)崿F(xiàn)用自然語言解釋圖片,還能通過文字描述生成圖片。這打通了語言和文字兩種不同媒形式的轉(zhuǎn)換。OpenAI 隨后發(fā)布的 Text - to - Image 生成工具 DALL-2 便是基于 CLIP 模型技術(shù)。
這件事的意義在于,過去針對不同的模態(tài)都要設(shè)計不同的專有模型,現(xiàn)在一套技術(shù)框架可以處理不同模態(tài)的數(shù)據(jù),并可以做到非常好的跨模態(tài)生成和轉(zhuǎn)化。
第三件事情則發(fā)生在半年后。2021 年 7 月,特斯拉在 AI Day 上展示了最新的自動駕駛技術(shù),第一次證明了這種端到端完全數(shù)據(jù)驅(qū)動的技術(shù)路徑,可以在現(xiàn)實世界的自動駕駛汽車上被成功應(yīng)用。之后全球絕大部分自動駕駛公司才開始慢慢相信,端到端深度學(xué)習(xí)的這套技術(shù)棧原來真的是可以在現(xiàn)實世界當(dāng)中 work 的。
Allen 說,發(fā)生在不同行業(yè)的三件事,被他們這群始終懷揣著 AGI 夢想的人串聯(lián)了起來。他們相信 AI 技術(shù)在未來兩到三年之內(nèi)一定會發(fā)生質(zhì)的變化和質(zhì)的升級;基于這種升級,AGI 可能在這代人的有生之年到來。
因此在特斯拉 AI Day 結(jié)束的四個月后,MiniMax 正式成立。根據(jù)團(tuán)隊的說法,當(dāng)時成立的 MiniMax,可能是國內(nèi)第一家 All in AGI 的一家公司。
還有一個有意思的小事:在準(zhǔn)備創(chuàng)業(yè)的階段,團(tuán)隊里的好幾個人都很喜歡玩底特律變?nèi)?。?Allen 看來,這款游戲就描繪了 AGI 實現(xiàn)之后,人與機器共生的時代。
他認(rèn)為未來人機共生一定會實現(xiàn),機器人可能有實體,也可能是一種虛擬的存在,但是他們的智能完備程度,都會使之與人類形成某種真正的關(guān)系,可能是提供生產(chǎn)力,也可能是情感上的陪伴。
用戶分享在 Glow 上共創(chuàng)的劇情|來源:小紅書分享
03
「User- in-the-Loop」
「ChatGPT 火起來之后,我們覺得很開心,這下省了很多教育市場的氣力?!乖谝粓鲂⌒偷拿襟w溝通會上,MiniMax 的一位創(chuàng)始成員和參與活動的記者交談時說。這也是公司第一次正式的小型亮相,此前 14 個月,公司幾乎很少對外發(fā)聲,一直在默默研發(fā)技術(shù)和產(chǎn)品。
ChatGPT 的付費賬戶開通,用戶在短短兩個月內(nèi)突破了 1 億,這也使得它成為了一種全新的存在。它本身是一個大模型,但它的受歡迎程度和人們的使用頻率,也使它成為了一個類似「產(chǎn)品」的存在。
「ChatGPT 這件事最大的啟示似乎是驗證了我們在做的這些事情,確實是有需求的。」葛溫認(rèn)為這是對自己莫大的鼓舞。
在 Allen 看來,這正是當(dāng)下大模型最神奇的一點,「當(dāng)它足夠通用,泛化能力足夠強,它本身就有足夠的多任務(wù)的通用能力,很多時候就可以直接拿來用」。
目前已經(jīng)有很多人拿 ChatGPT 修改代碼 Bug、查資料、寫文章、甚至嘗試用它來生成報告,人們會根據(jù)自己的需求使用它。使用門檻足夠低、可以被各種人群使用,使得大模型天然就具備了某些產(chǎn)品屬性。
「AGI 公司其實也是一個全新的公司類型。」Allen 在溝通會上介紹道,大模型公司不再去基于 AI 技術(shù)做針對性的解決方案,而是通過各種方式,讓更多人直接與技術(shù)進(jìn)行動態(tài)的、實時更新的交互。
在這種體系下,原來 toB 和 toC 的概念也不再重要。大蔥表示「我們不太會刻意地去區(qū)分這一點。其實主要的還是我們能夠覆蓋多大的用戶群體,給他們帶來多大的效率提升、或者其它價值」。
可以想象,在 2021 年 MiniMax 剛成立時,這套邏輯會讓他們在創(chuàng)業(yè)早期尋找投資人、合作伙伴甚至員工時,屢屢碰壁?!笡]有辦法說服投資人,因為沒有人能聽懂,我們說非常多次,也沒有幾個人信?!挂晃粍?chuàng)始成員說。
一端是核心技術(shù),另一端是具體的用戶,在這兩端之間,實現(xiàn)真正暢通的反饋和聯(lián)動。這是目前 MiniMax 核心的思考邏輯之一,團(tuán)隊將其總結(jié)為「User- in-the-Loop」。
Allen 說,這一點的啟發(fā)還是來自 2021 年的特斯拉 AI Day。AI Day 上展示的很多技術(shù)的第一版學(xué)術(shù)原型,源自他和一些曾經(jīng)的合作者們,但是特斯拉將這些技術(shù)裝載在無數(shù)的車上,和真實世界里的用戶進(jìn)行交互、反饋迭代。
「我覺得它教會了我一件事情,當(dāng)你有一個非常前沿的技術(shù)時,怎樣以一個商業(yè)公司的角度,放在真實世界中,make real impact for everyone.」
在被問及接下來有什么規(guī)劃的時,團(tuán)隊成員最喜歡的說法是「按自己的節(jié)奏來」。他們表示,今年會開放模型的 API,接下來也會根據(jù)模型的能力開發(fā)新的產(chǎn)品。
聯(lián)系客服