Pine 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
ChatGPT的熱度稍有平息,蟄伏已久的Meta就迅速放出“大招”:
一次性發(fā)布四種尺寸的大語言模型LLaMA:7B、13B、33B和65B,用小杯、中杯、大杯和超大杯來解釋很形象了有木有(Doge)。
還聲稱,效果好過GPT,偏向性更低,更重要的是所有尺寸均開源,甚至13B的LLaMA在單個GPU上就能運行。
消息一出,直接在網(wǎng)上掀起一陣熱度,不到一天時間,相關推文的瀏覽量就已經(jīng)快破百萬。
同在Meta的LeCun當然也得為這次大模型的熱度“添油加柴”,LLaMA直接給他寫了段“AI”Rap:
We gotta think about the future, it’s gonna be here soon
Maybe we can even put some AI in the moon
Think about the children, think about the next generation
Let’s make sure we put the right systems in their foundation
(不得不說效果不錯,還雙押了,skr~)
不過話說回來,這次Meta的LLaMA模型到底如何?
一起來一探究竟。
Meta發(fā)布的LLaMA是通用大語言模型,原理就不多贅述,和以往的大語言模型一樣:
將一系列單詞作為輸入,并預測下一個單詞以遞歸生成文本。
這次,Meta之所以一次給出不同大小的LLaMA模型,論文中給出了這樣的解釋:
近來的研究表明,對于給定的計算預算,最佳性能不是由最大的模型實現(xiàn)的,而是由基于更多數(shù)據(jù)訓練的更小的模型實現(xiàn)的。
也就是說,較小的模型規(guī)模加上比較大的數(shù)據(jù)集,獲得的性能可能會比更大規(guī)模模型的要好很多。
一方面,小規(guī)模模型需要的計算能力和資源相對來說都會少很多,另一方面,它還能基于更多數(shù)據(jù)集訓練更多token,更容易針對特定的潛在產(chǎn)品用例進行重新訓練和微調。
除了一把給出四種尺寸的LLaMA,Meta這次還直接開源了這個大語言模型。
更重要的是,Meta為了讓自己的工作與開源兼容,使用的都是公開的數(shù)據(jù)。
而這把開源,也不只利好開發(fā)人員,同樣也利好Meta。
LLaMA模型也有著其他大語言模型的通?。簳a(chǎn)生偏見性、有毒或者虛假的內(nèi)容。開源吸引來的更多的研究可以幫助解決這個問題。
不過講了這么多,Meta的這個LLaMA模型到底能做啥?
扎克伯格直接在Facebook放出豪言,這是AI大語言模型里的新SOTA:
生成文本、進行對話、總結書面材料以及解決數(shù)學定理或預測蛋白質結構等它都能干。
論文的最后也給出了一些栗子:
比如說,給出幾個數(shù)字,它直接就能找出其中的規(guī)律并續(xù)寫,還balabala解釋了一大通。
ChatGPT之前擅長寫的求職信LLaMA也能輕松拿下。
編程、寫小說也是分分鐘的事兒:
當然按照慣例,在最后LLaMA還是得和其他大模型做做比較(是騾子是馬,咱得拉出來遛遛)。
其中,大家比較熟悉的就是GPT-3,直接看看它們倆之間的效果比較:
相較于有1750億參數(shù)的GPT-3,最多只有650億參數(shù)LLaMA贏麻了:它在大多數(shù)基準上都要優(yōu)于GPT-3。
比如說常識推理:
或者說一些基礎問題的解決:
又比如說閱讀理解:
甚至,研究人員還提供了一組評估模型偏見性和毒性的基準,得分越高,偏見就越大:
LLaMA以66.6分險勝,偏見性略低于GPT-3。
你對Meta這次的LLaMA怎么看呢?如果還想了解更多可以戳文末鏈接~
論文地址:
https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
參考鏈接:
[1] https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
[2] https://twitter.com/GuillaumeLample/status/1629151231800115202
[3] https://twitter.com/ylecun/status/1629243179068268548
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們,第一時間獲知前沿科技動態(tài)
聯(lián)系客服