這是一家有著很多光環(huán)的大模型創(chuàng)業(yè)公司,創(chuàng)始人楊植麟曾就職于 FAIR 和 Google Brain,是 Transformer-XL 與 XLNet 論文第一作者,同時(shí)也是蘋(píng)果 AI 負(fù)責(zé)人 Ruslan Salakhutdinov 在 CMU 的親傳弟子。
此前 The Information 曾選出五家「中國(guó) OpenAI」的創(chuàng)業(yè)公司,其中就有尚且沒(méi)有正式發(fā)聲的月之暗面。
創(chuàng)業(yè)半年,月之暗面拿到了紅杉中國(guó)和真格基金等 VC 的投資,目前已經(jīng)募資超過(guò) 2 億美元。
綜合目前月之暗面和楊植麟對(duì)外公開(kāi)的表述來(lái)看,月之暗面正在自研大模型,堅(jiān)定 toC 方向,未來(lái)模型將向多模態(tài)拓展,產(chǎn)品層面探索 super-app。
超長(zhǎng)上下文,Claude 2 的 2.5 倍
對(duì)于此次發(fā)布的 Kimi Chat,Moonshot 介紹說(shuō)這是首個(gè)支持輸入 20 萬(wàn)漢字的智能助手產(chǎn)品。這一上下文長(zhǎng)度,是目前最高的 Claude 2-100k(約 8 萬(wàn)字)的 2.5 倍,GPT-4-32k(約 2.5 萬(wàn)字)的 8 倍。
Moonshot AI 官方展示了一些 Kimi Chat 的應(yīng)用 demo。
公眾號(hào)的長(zhǎng)文總結(jié)分析:
財(cái)報(bào)關(guān)鍵信息分析:
多個(gè)文件,出差發(fā)票快速整理成需要的信息:
發(fā)現(xiàn)了新的算法論文時(shí),Kimi Chat 直接根據(jù)論文復(fù)現(xiàn)代碼:
一個(gè)網(wǎng)頁(yè)地址,就可以在 Kimi Chat 中和自己喜歡的原神角色聊天:
還有直接吞下整本小說(shuō)輔助理解:
楊植麟提到,因?yàn)楦L(zhǎng)的上下文可以直接基于全文理解進(jìn)行問(wèn)答和信息處理,可以有效減少大模型生成的「幻覺(jué)」。
80 年代,網(wǎng)傳比爾·蓋茨說(shuō)「512k 內(nèi)存對(duì)大多數(shù)人都?jí)蛴昧恕埂6嗄旰竺鎸?duì)媒體采訪,蓋茨急了,說(shuō)自己從來(lái)沒(méi)說(shuō)過(guò)這種胡言亂語(yǔ):「你知道 IBM PC 內(nèi)存只有 640K 的時(shí)候,業(yè)界所經(jīng)歷的痛苦嗎?」
縱觀計(jì)算機(jī)發(fā)展的歷史,內(nèi)存拓展是必然趨勢(shì),楊植麟認(rèn)為,上下文長(zhǎng)度就是大模型的「內(nèi)存」,它是決定大模型應(yīng)用最關(guān)鍵的兩個(gè)因素(參數(shù)量和上下文)之一。
上下文長(zhǎng)度毫無(wú)疑問(wèn)是當(dāng)前大模型領(lǐng)域重點(diǎn)的探索方向,但在楊植麟總結(jié),行業(yè)里的探索大多在走三條捷徑:
金魚(yú)模型,「健忘」,通過(guò)滑動(dòng)窗口等方式,直接拋棄很多上文;
蜜蜂模型,關(guān)注局部忽略全局,對(duì)上下文采樣(如 RAG 檢索增強(qiáng)等);
蝌蚪模型,能力不夠的小模型,光有長(zhǎng)文本但參數(shù)不足能力不足。
「有金魚(yú)、蜜蜂和蝌蚪,不是獵豹、老虎和獅子?!箺钪谗虢忉屨f(shuō),「這些都不能真正做到產(chǎn)品化的效率。」
概括來(lái)說(shuō),月之暗面團(tuán)隊(duì)對(duì)存儲(chǔ)、算力、帶寬等方面探索等方面探索新的解決方案,同時(shí)對(duì)算法做了網(wǎng)絡(luò)結(jié)構(gòu)(不滿足于原始 Transformer 結(jié)構(gòu))和工程方面做了優(yōu)化。這才有了這次基于千億模型底座的 20 萬(wàn)字超長(zhǎng)上下文的產(chǎn)品。
解決長(zhǎng)文本,也就解鎖了更多應(yīng)用層的想象空間。
楊植麟提到,Inflection AI 現(xiàn)在的表現(xiàn)很大程度上受限于 context length。
此前 Character AI 創(chuàng)始人也在訪談中表示,「我并不認(rèn)為幻覺(jué)是模型需要解決的問(wèn)題,甚至我很喜歡幻覺(jué),這是模型的特點(diǎn),相當(dāng)有趣。我們最想做的事是提高模型的記憶能力,因?yàn)槲覀兊挠脩粝M?Character AI 上的虛擬朋友可以記住他們。」
「這樣用戶能夠使用大量的數(shù)據(jù)訓(xùn)練模型,提高 Character 的個(gè)性化?!筃oam Shazeer 說(shuō)。
而長(zhǎng)文本,也是通向多模態(tài)的一步鋪墊。
「無(wú)論是文字、語(yǔ)音還是視頻,對(duì)海量數(shù)據(jù)的無(wú)損壓縮可以實(shí)現(xiàn)高程度的智能。而無(wú)損壓縮等同于對(duì)數(shù)據(jù)聯(lián)合概率分布的預(yù)測(cè),這又找到了與多模態(tài)數(shù)據(jù)生成的契合點(diǎn)。多模態(tài)數(shù)據(jù)的生成本質(zhì)上也是在做數(shù)據(jù)的聯(lián)合概率分布預(yù)測(cè),而長(zhǎng)上下文窗口技術(shù)對(duì)實(shí)現(xiàn)多模態(tài)至關(guān)重要。」
楊植麟反復(fù)強(qiáng)調(diào),月之暗面 Moonshot AI 是一家 toC 的公司,追求大模型時(shí)代的 super-app。
此前創(chuàng)業(yè)的循環(huán)智能主要 toB,但面對(duì)大模型,楊植麟有了完全不同的想法。
「以終為始。」月之暗面的目標(biāo)有三點(diǎn):探索智能邊界、確保技術(shù)真正有用,以及做普惠的個(gè)性化。
出于這三個(gè)目的,「要有非常快速的迭代效率,不管是技術(shù)還是產(chǎn)品,快速推進(jìn)。迭代效率是我們現(xiàn)在最重要的關(guān)鍵詞?!顾?Moonshot AI 決定走 toC 的路線。
「(ToC)決定你的企業(yè)文化、人才結(jié)構(gòu),它會(huì)決定你最終用怎樣的思路去做一件事。」綜合這幾個(gè)維度,楊植麟認(rèn)為,只有 toC 這一條路。「每個(gè)時(shí)代,每次新技術(shù)變革發(fā)生的時(shí)候,都會(huì)產(chǎn)生很多新的 super-app。」
楊植麟認(rèn)為,國(guó)內(nèi)大模型市場(chǎng)格局會(huì)分為 toB 和 toC 兩個(gè)不同的陣營(yíng),在 toC 陣營(yíng)里,會(huì)出現(xiàn) super-app,這些超級(jí)應(yīng)用「是基于自研模型做出來(lái)的」。
國(guó)內(nèi)外已經(jīng)出現(xiàn)的熱門(mén)應(yīng)用中,大多數(shù)都是基于自研模型做出來(lái)的,ChatGPT、Inflection AI 的 Pi,國(guó)內(nèi) MiniMax 的 Glow 等等,大熱的 Character AI 也在自研模型,創(chuàng)始人 Noam Shazeer 認(rèn)為 Character AI 是一家通用模型公司。
「基本上所有 C 端做得好的公司都是基于閉源模型做的,這背后的邏輯很好理解,如果基于開(kāi)源去開(kāi)發(fā)一個(gè)東西,沒(méi)有辦法通過(guò)開(kāi)源形成很強(qiáng)的產(chǎn)品差異化,同時(shí)因?yàn)殚_(kāi)源是分布式部署,沒(méi)有集中儲(chǔ)存的數(shù)據(jù),所以無(wú)法形成數(shù)據(jù)的虹吸效應(yīng)進(jìn)一步優(yōu)化模型技術(shù)。」楊植麟解釋說(shuō),「所以不管是底層邏輯還是目前觀察到的行業(yè)現(xiàn)狀,我們都非常堅(jiān)定認(rèn)為大家(做 super-app)最后還是需要閉源。」
為了打造 C 端產(chǎn)品,Moonshot AI 招募了大量高端產(chǎn)品人才,包括在海內(nèi)外從 0 到 1 做 C 端產(chǎn)品經(jīng)驗(yàn)的、從零開(kāi)始到過(guò)億級(jí)別 DAU 經(jīng)驗(yàn)的,以及很多大 DAU 產(chǎn)品的負(fù)責(zé)人等等?!肝覀兿Mㄟ^(guò)這種高密度產(chǎn)品人才,通過(guò)組織的力量,打造一個(gè)快速迭代的機(jī)器,讓他們?cè)谶@里基于我們現(xiàn)有的技術(shù)和接下來(lái)的技術(shù),探索未來(lái)比較好的產(chǎn)品?!?/span>
除了產(chǎn)品人才以外,月之暗面最核心的競(jìng)爭(zhēng)優(yōu)勢(shì),是技術(shù)領(lǐng)域極高的人才密度,「創(chuàng)始團(tuán)隊(duì)核心成員參與了 Google Gemini、Bard、盤(pán)古 NLP、悟道等多個(gè)大模型研發(fā),多項(xiàng)核心技術(shù)被 Google PaLM、Meta LLaMa 和 Stable Diffusion 等主流模型采用。
在楊植麟看來(lái),C 端市場(chǎng)除了 super-app 之外,還會(huì)有很多長(zhǎng)尾的應(yīng)用,這些應(yīng)用可能會(huì)基于開(kāi)源模型去做,通過(guò)本身的數(shù)據(jù)、場(chǎng)景或者產(chǎn)品優(yōu)勢(shì)形成各自的差異化。
目前,Moonshot AI 的智能助手產(chǎn)品 Kimi Chat 已開(kāi)放內(nèi)測(cè)。
訪問(wèn) moonshot.cn,即可加入內(nèi)測(cè)計(jì)劃。
聯(lián)系客服