大型語言模型(LLM)是人工智能領(lǐng)域中的一個重要研究方向,在ChatGPT之后,它經(jīng)歷了快速的發(fā)展。這些發(fā)展主要涉及以下幾個方面:
模型規(guī)模的增長:LLM的規(guī)模越來越大,參數(shù)數(shù)量顯著增加。這種擴展使得模型能夠處理更復(fù)雜、更長的輸入序列,并生成更準(zhǔn)確、更具連貫性的輸出。同時,更大規(guī)模的模型還能夠涵蓋更廣泛的知識和語言上下文,提供更全面的回答和解決方案。
領(lǐng)域?qū)>篖LM在不同領(lǐng)域的專精化得到了進(jìn)一步的發(fā)展。研究人員通過對特定領(lǐng)域的訓(xùn)練數(shù)據(jù)進(jìn)行更多的優(yōu)化,使得模型在特定領(lǐng)域的問答、文本生成等任務(wù)中表現(xiàn)更出色。這使得LLM能夠為特定行業(yè)或?qū)I(yè)領(lǐng)域提供更精準(zhǔn)的支持和咨詢。
提升對語義理解和推理能力:研究人員致力于提高LLM對語義理解和推理的能力。通過引入更多的上下文信息、關(guān)聯(lián)知識和邏輯推理機制,LLM能夠更好地理解復(fù)雜問題,進(jìn)行推理和分析,并給出更深入、準(zhǔn)確的回答。
模型訓(xùn)練的效率和速度提升:研究人員提出了一系列技術(shù)來提高LLM的訓(xùn)練效率和推理速度。例如,采用分布式訓(xùn)練方法,利用多臺計算機進(jìn)行并行訓(xùn)練,加快模型收斂速度。此外,還有一些壓縮和加速技術(shù),可以在保持性能的同時減少模型的計算資源消耗。
理解和應(yīng)對偏見:LLM的發(fā)展也關(guān)注了如何更好地理解和應(yīng)對模型中的偏見。研究人員努力解決模型在生成結(jié)果時可能存在的性別、種族、文化等偏見問題,以確保模型的輸出更加公正和中立。
本文將總結(jié)目前能見到的所有開源的大語言模型。
Falcon-40B- instruct是TII基于Falcon-40B構(gòu)建的40B參數(shù)因果解碼器模型,在Baize上進(jìn)行微調(diào)。
位于阿布扎比的技術(shù)創(chuàng)新研究所(TII)宣布了其開源大型語言模型(LLM)——Falcon-40B。Falcon-40B擁有400億個參數(shù),是阿聯(lián)酋首個大型人工智能模型,表明了該國在人工智能領(lǐng)域的雄心以及推動創(chuàng)新和研究的承諾。
與大多數(shù)llm(通常只向非商業(yè)用戶提供訪問)不同,F(xiàn)alcon-40B對研究和商業(yè)用途都開放。TII還將模型的權(quán)重包含在開源包中,這將增強模型的功能并允許更有效的微調(diào)。
自2023年3月亮相以來,F(xiàn)alcon-40B的表現(xiàn)令人印象深刻。當(dāng)使用斯坦福大學(xué)的HELM工具進(jìn)行基準(zhǔn)測試時,與OpenAI的GPT-3、DeepMind的Chinchilla AI和谷歌的PaLM-62B等其他知名模型相比,它使用的訓(xùn)練計算能力更少。
Vicuna是一個開源聊天機器人,通過從ShareGPT收集的用戶共享對話進(jìn)行訓(xùn)練。使用GPT-4作為評判的初步評估顯示,Vicuna-13B的質(zhì)量達(dá)到了OpenAI ChatGPT和Google Bard的90%以上,訓(xùn)練Vicuna-13B的費用約為300美元。代碼和權(quán)重以及在線演示都是公開的,可供非商業(yè)用途。
在對Vicuna與70K用戶共享的ChatGPT對話進(jìn)行微調(diào)后,我們發(fā)現(xiàn)與Alpaca相比,Vicuna能夠生成更詳細(xì)和結(jié)構(gòu)良好的答案,質(zhì)量與ChatGPT相當(dāng)。
Vicuna是通過微調(diào)LLaMA基礎(chǔ)模型創(chuàng)建的,該模型使用了從ShareGPT收集的大約70K用戶共享對話和公共api。
訓(xùn)練也有以下改進(jìn)。
內(nèi)存優(yōu)化:將最大上下文長度從512擴展到2048,通過利用梯度檢查點和flash attention解決內(nèi)存壓力。
多輪對話:調(diào)整訓(xùn)練損失以考慮多輪對話,并僅根據(jù)聊天機器人的輸出計算微調(diào)損失。
通過Spot實例降低成本:使用SkyPilot管理的spot來降低成本,利用更便宜的spot實例來自動恢復(fù)搶占和自動區(qū)域切換。這個解決方案將訓(xùn)練7B模型的成本從500美元削減到140美元左右,將訓(xùn)練13B模型的成本從1000美元左右削減到300美元左右。
Alpaca,在Meta的LLaMA 7B模型上進(jìn)行了微調(diào)。使用text-davinci-003以自指導(dǎo)的方式生成52K指令跟隨LLaMA 模型。在評估集上,Alpaca表現(xiàn)出許多與OpenAI的text- davincic -003相似的行為,但但是他卻非常的小,且易于地復(fù)制。
下圖說明了Alpaca是如何訓(xùn)練的。
使用HuggingFace的訓(xùn)練框架對LLaMA模型進(jìn)行了微調(diào),利用了完全分片數(shù)據(jù)并行和混合精確訓(xùn)練等技術(shù)。在8臺80GB的a100上微調(diào)7B LLaMA模型花了3個小時,在大多數(shù)云計算提供商那里,a100的成本不到100美元。
LLaMA(Large Language Model Meta AI),一個最先進(jìn)的基礎(chǔ)大型語言模型,旨在幫助研究人員推進(jìn)他們在人工智能這一子領(lǐng)域的工作。
與其他大型語言模型一樣,LLaMA的工作方式是將單詞序列作為輸入,并預(yù)測下一個單詞以遞歸地生成文本。從使用人數(shù)最多的20種語言中選擇了文本,重點關(guān)注那些帶有拉丁和西里爾字母的語言
在大多數(shù)基準(zhǔn)測試中,LLaMA- 13b優(yōu)于GPT-3(175B),而LLaMA- 13b優(yōu)于GPT-3(175B),而65B與Chinchilla-70B和PaLM-540B類似。
gpt - j6b是使用Ben Wang的Mesh Transformer JAX訓(xùn)練的Transformer 模型。“GPT-J”表示模型的類別,“6B”表示可訓(xùn)練參數(shù)的個數(shù)。模型共28層,模型維數(shù)為4096,前饋維數(shù)為16384。模型維度被分成16個頭,每個頭的維度為256。該模型使用50257的標(biāo)記化詞匯表進(jìn)行訓(xùn)練,使用與GPT-2/GPT-3相同的bp集。該模型由EleutherAI發(fā)布。GPT-J的核心功能是獲取一串文本并預(yù)測下一個令牌。
GPT-J是在Pile上訓(xùn)練的,這是一個已知包含褻瀆、猥褻和其他粗暴語言的數(shù)據(jù)集。所以GPT-J可能會產(chǎn)生社會上不可接受的文本。
Databricks的Dolly-V2-12B,一個在Databricks機器學(xué)習(xí)平臺上訓(xùn)練的大型語言模型?;赑ythia-12B, Dolly接受了約15k條指令/響應(yīng)調(diào)優(yōu)記錄,這些記錄是由Databricks員工在基于InstructGPT論文領(lǐng)域中生成的,包括頭腦風(fēng)暴、分類、封閉QA、生成、信息提取、開放QA和總結(jié)。
大型語言模型在ChatGPT以后經(jīng)歷了快速的發(fā)展。這些發(fā)展包括模型規(guī)模的增加、領(lǐng)域?qū)>?、語義理解和推理能力的提升、訓(xùn)練效率和速度的提高,以及對偏見的理解和應(yīng)對等方面。除了以上6個比較好的開源大語言模型外,還有各種不同版本,所以HuggingFace創(chuàng)建了一個排行榜(leaderboard)
有興趣的可以看看:
https://avoid.overfit.cn/post/a4da1098db9d4bf4b00365b28c201db9
作者:Varun Mathur
聯(lián)系客服