九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
斯坦福70億參數(shù)開源模型媲美GPT-3.5,100美元即可復(fù)現(xiàn)

機(jī)器之心報(bào)道

機(jī)器之心編輯部

學(xué)界或許沒有業(yè)界的算力優(yōu)勢(shì),但可以使用 self-instruct 方法直面大規(guī)模語言模型的挑戰(zhàn)。

隨著大規(guī)模語言模型的日漸強(qiáng)大,人們對(duì) AI 模型提出了倫理道德方面的更高要求。業(yè)界在模型規(guī)模擴(kuò)展方面具有算力資源優(yōu)勢(shì),但要想讓模型更規(guī)范、可靠,需要學(xué)術(shù)界的努力。

近日,斯坦?;?Meta 的 LLaMA 7B 模型微調(diào)出一個(gè)新模型 Alpaca。該研究讓 OpenAI 的 text-davinci-003 模型以 self-instruct 方式生成 52K 指令遵循(instruction-following)樣本,以此作為 Alpaca 的訓(xùn)練數(shù)據(jù)。研究團(tuán)隊(duì)已將訓(xùn)練數(shù)據(jù)、生成訓(xùn)練數(shù)據(jù)的代碼和超參數(shù)開源,后續(xù)還將發(fā)布模型權(quán)重和訓(xùn)練代碼。

  • 項(xiàng)目地址:https://github.com/tatsu-lab/stanford_alpaca

  • 試用地址:https://alpaca-ai-custom6.ngrok.io/

實(shí)驗(yàn)結(jié)果表明,Alpaca 的很多行為都與 text-davinci-003 類似。也就是說,只有 7B 參數(shù)的輕量級(jí)模型 Alpaca 性能可媲美 GPT-3.5 這樣的超大規(guī)模語言模型。

我們來看一下 Alpaca 模型是如何做到的。

訓(xùn)練方法

在學(xué)術(shù)界的預(yù)算條件下,訓(xùn)練高質(zhì)量的指令遵循模型面臨兩個(gè)重要挑戰(zhàn):強(qiáng)大的預(yù)訓(xùn)練語言模型和高質(zhì)量的指令遵循數(shù)據(jù)。

Meta 最近發(fā)布的 LLaMA 系列模型解決了第一個(gè)挑戰(zhàn)。對(duì)于第二個(gè)挑戰(zhàn),2022 年底的 self-instruct 論文提出使用現(xiàn)有的強(qiáng)大語言模型自動(dòng)生成指令數(shù)據(jù)。

論文地址:https://arxiv.org/abs/2212.10560

按照這種方法,Alpaca 使用 LLaMA 7B 模型的監(jiān)督學(xué)習(xí)在 text-davinci-003 以 self-instruct 方式生成的 52K 指令遵循樣本上進(jìn)行微調(diào)。

self-instruct 方法概覽。

Alpaca 的研究團(tuán)隊(duì)首先使用 self-instruct 種子集中的 175 個(gè)人工編寫的指令輸出(instruction-output)對(duì),然后用該種子集作為 in-context 樣本 prompt text-davinci-003 來生成更多指令。該研究通過簡(jiǎn)化生成 pipeline 改進(jìn)了 self-instruct 方法,并顯著降低了成本。

該研究共生成了 52K 個(gè)不同的指令和相應(yīng)的輸出作為訓(xùn)練數(shù)據(jù),其中使用了 OpenAI 開放的 API,成本不到 500 美元。由于研究團(tuán)隊(duì)已將訓(xùn)練數(shù)據(jù)開源,對(duì)于想要復(fù)現(xiàn) Alpaca 的開發(fā)者來說,這500美元就省下了。

有了這個(gè)指令遵循數(shù)據(jù)集,該研究下一步使用 Hugging Face 的訓(xùn)練框架微調(diào)了 LLaMA 模型,并利用了 FSDP(Fully Sharded Data Parallel)和混合精度訓(xùn)練等技術(shù)。成本方面,在 8 個(gè) 80GB A100 上微調(diào)一個(gè) 7B LLaMA 模型需要 3 個(gè)小時(shí),這對(duì)大多數(shù)云計(jì)算提供商來說成本不到 100 美元。

模型評(píng)估

該研究使用來自 self-instruct 評(píng)估集的輸入進(jìn)行了人工評(píng)估,這項(xiàng)工作由 5 名研究團(tuán)隊(duì)的學(xué)生完成。該評(píng)估集由 self-instruct 論文的作者收集整理,涵蓋了多種面向用戶的 instruction,涉及電子郵件、社交媒體和辦公工具。

在將 text-davinci-003 和 Alpaca 7B 進(jìn)行 blind pairwise 比較之后,研究者發(fā)現(xiàn)這兩個(gè)模型的性能非常相似,并且 Alpaca 略優(yōu)于 text-davinci-003。

從參數(shù)規(guī)模的角度看,Alpaca 遠(yuǎn)遠(yuǎn)小于 text-davinci-003,移動(dòng)端甚至也可以運(yùn)行 7B 的輕量級(jí)語言模型。這讓 Alpaca 意義非凡。

除了利用上述靜態(tài)的 self-instruct 評(píng)估集,該研究還對(duì) Alpaca 模型進(jìn)行了交互測(cè)試,并發(fā)現(xiàn) Alpaca 的表現(xiàn)通常與 text-davinci-003 相似。

下面是研究團(tuán)隊(duì)測(cè)試的兩個(gè)例子,結(jié)果表明 Alpaca 的輸出良好,并且反映出指令遵循數(shù)據(jù)集的一般風(fēng)格。例如,Alpaca 輸出的答案通常比 ChatGPT 更簡(jiǎn)潔,這和 text-davinci-003 類似。

模型缺陷

實(shí)驗(yàn)中,Alpaca 還表現(xiàn)出語言模型的幾種常見缺陷,包括幻覺、毒性和刻板印象,其中幻覺問題尤其嚴(yán)重。

例如在下圖中,Alpaca 回答坦桑尼亞的首都是達(dá)累斯薩拉姆,但實(shí)際上應(yīng)該是多多馬。

此外,Alpaca 能夠生成一些看似良好卻包含錯(cuò)誤或虛假信息的文本,這可能會(huì)誤導(dǎo)人們。

Alpaca 可能包含許多與底層語言模型和指令調(diào)優(yōu)數(shù)據(jù)相關(guān)的其他缺陷。但是,Alpaca 對(duì)機(jī)器學(xué)習(xí)社區(qū)仍然具有重要意義,因?yàn)樗峁┝艘粋€(gè)相對(duì)輕量級(jí)的模型,可作為研究重要缺陷的基礎(chǔ)。斯坦福的研究團(tuán)隊(duì)還強(qiáng)調(diào):Alpaca 只可用于學(xué)術(shù)研究,禁止任何商業(yè)用途。

接下來,斯坦福的研究團(tuán)隊(duì)會(huì)進(jìn)一步探究 Alpaca 模型的安全性、理解能力、規(guī)模擴(kuò)展等等。研究團(tuán)隊(duì)希望 Alpaca 能夠促進(jìn)指令遵循模型的發(fā)展。

原文鏈接:

https://crfm.stanford.edu/2023/03/13/alpaca.html

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
這個(gè)新聞可能比GPT4還要大
LeCun狂贊:600刀GPT-3.5平替! 斯坦福70億參數(shù)「羊駝」爆火,LLaMA殺瘋了
Meta AI 重磅推出LIMA!媲美GPT-4、無需RLHF就能對(duì)齊!
Stability AI進(jìn)軍編程領(lǐng)域,發(fā)布首個(gè)用于代碼生成的大語言模型
LLMs之Code:Code Llama的簡(jiǎn)介、安裝、使用方法之詳細(xì)攻略
實(shí)現(xiàn)92%的GPT4能力的離線版ChatGPT——Vicuña(駱馬?)大部分由中國(guó)人貢獻(xiàn)
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服