99视频福利,夜夜嗨影院

1. 從周五到周末ChatGPT已經(jīng)瘋傳開來，其對話能力讓人驚艷。從玩梗、寫詩、寫劇本，到給程序找bug，幫人設計網(wǎng)頁，甚至幫你生成AIGC的提示詞，一副無所不能的樣子?？梢匀witter上看Ben Tossell梳理的一些例子，或者自己去試試！一位MBA老師讓ChatGPT回答自己的管理學題目，結(jié)論是以后不能再布置可以帶回家的作業(yè)了。很多人用了以后無法自拔，就如這位所見：

Musk問ChatGPT怎么設計Twitter(不得不說還挺有創(chuàng)意）：

2. 有人讓ChatGPT參加了智商測試，得分83; SAT測試得分1020，對應人類考生52%分位。要知道ChatGPT并沒有對數(shù)學方面做過優(yōu)化，已經(jīng)是相當不錯的結(jié)果了。

3. ChatGPT的提升點

相比之前的GPT-3，ChatGPT的提升點在于能記住之前的對話，連續(xù)對話的感覺讓人舒服。

ChatGPT可以承認錯誤，如果你認為他的回答不對，你可以讓他改正，并給出更好的答案。

ChatGPT可以質(zhì)疑不正確的前提，GPT-3剛發(fā)布后很多人測試的體驗并不好，因為AI經(jīng)常創(chuàng)造虛假的內(nèi)容（只是話語通順，但脫離實際），而現(xiàn)在再問“哥倫布2015年來到美國的情景”這樣的問題，AI已經(jīng)知道哥倫布不屬于這個時代了。

ChatGPT還采用了注重道德水平的訓練方式，按照預先設計的道德準則，對不懷好意的提問和請求“說不”；當然，盡管OpenAI非常小心，這種準則還是可能被聰明的提問方式繞開。

4. ChatGPT的訓練方法

當下大模型的工作范式是“預訓練-微調(diào)”。首先在數(shù)據(jù)量龐大的公開數(shù)據(jù)集上訓練，然后將其遷移到目標場景中（比如跟人類對話），通過目標場景中的小數(shù)據(jù)集進行微調(diào)，使模型達到需要的性能。微調(diào)/prompt等工作從本質(zhì)上對模型改變并不大，但是有可能大幅提升模型的實際表現(xiàn)。人類問問題方式對于GPT-3而言不是最自然的理解方式，要么改造任務，要么微調(diào)模型，總之是讓模型和任務更加匹配，從而實現(xiàn)更好的效果。

ChatGPT是22年1月推出的InstructGPT的兄弟模型。InstructGPT增加了人類對模型輸出結(jié)果的演示，并且對結(jié)果進行了排序，在此基礎上完成訓練，可以比GPT-3更好的完成人類指令。ChatGPT新加入的訓練方式被稱為“從人類反饋中強化學習”（Reinforcement Learning from Human Feedback，RLHF）。

ChatGPT是基于GPT-3.5模型，訓練集基于文本和代碼，在微軟Azure AI服務器上完成訓練。原先GPT-3的訓練集只有文本，所以這次新增了代碼理解和生成的能力。

5. 為什么ChatGPT的提升這么明顯

除了帶有記憶能力、上下文連續(xù)對話能帶給人顯著的交互體驗提升，ChatGPT的訓練方式也值得關注。上述提到的RLHF方法首見于22年3月發(fā)表的論文(Training language models to follow instructions with human feedback)，但根據(jù)業(yè)界的推測，RLHF并未用到InstructGPT的訓練中。InstructGPT所用到的text-davinci-002遇到了一些問題，會呈現(xiàn)出模式坍塌(mode collapse)現(xiàn)象，不管問他什么問題，經(jīng)常收斂到同樣的答案，比如正面情緒相關的回答都是跟婚禮派對相關。

這次RLHF的方法得以在ChatGPT上應用，并取得了很好的效果。但RLHF實際上并不容易訓練，強化學習很容易遇到模式坍塌，反饋過于稀疏這類問題，訓練起來很困難。這可能也是為什么論文在3月發(fā)表，ChatGPT在12月才上線，中間需要大量的時間來調(diào)優(yōu)。

此外，指令調(diào)整（instruction tuning）的貢獻也很大。InstructGPT雖然在參數(shù)上比GPT-3少了100倍（13億 vs 1750億），它的輸出效果比GPT-3以及用監(jiān)督學習進行微調(diào)的模型都要好得多。

根據(jù)知乎用戶“避暑山莊梁朝偉”的觀點：“Instruction Tuning和Prompt方法的核心一樣，就是去發(fā)掘語言模型本身具備的知識。而他們的不同點就在于，Prompt是去激發(fā)語言模型的補全能力，比如給出上半句生成下半句、或者做完形填空，都還是像在做language model任務，而Instruction Tuning則是激發(fā)語言模型的理解能力，通過給出更明顯的指令，讓模型去理解并做出正確的反饋?！?/em>

參考下圖，以前大模型的提升重心更多放在了大模型（LLM）本身和Prompt Engineering上，而ChatGPT的迭代重點是右側(cè)的閉環(huán)。

action-driven LLM訓練流程圖

最后，ChatGPT在過于保守不提供有效回答和提供虛假信息之間做出了較好的權衡。之前Meta用于科研的大模型Galactica上線僅3天就被迫下線，因為提供了過多虛假的信息。這跟Meta的宣傳策略也有關，其本意是想幫助研究人員整理信息、輔助寫作，但Meta將其模型宣傳為“可以總結(jié)學術論文，解決數(shù)學問題，生成維基文章，編寫科學代碼，為分子和蛋白質(zhì)做注解等”，過高期望帶來了反效果，科研人員本來就是挑剔的。ChatGPT盡管不能完全避免虛假信息的問題，但可以看出在微調(diào)/Prompt方面做了足夠細致的工作，一些自相矛盾的提問可以被甄別出來，讓用戶對其回答更有信心。
6. 商業(yè)策略也是重要一環(huán)
這次ChatGPT是免費不限量向公眾開放，用戶可以盡情在平臺上嘗試各種奇異瘋狂的想法，而此前GPT-3是根據(jù)使用量(token)來收費的。在使用過程中，用戶可以提供反饋，這些反饋是對OpenAI最有價值的信息。OpenAI并不急于創(chuàng)收也不缺錢，坊間傳言最新一輪估值已經(jīng)達到數(shù)百億美金，還有金主爸爸微軟。
對于AI發(fā)展來說，工程的重要性實際上大于科學，創(chuàng)建一個迭代反饋的閉環(huán)至關重要。OpenAI很注重商業(yè)應用，GPT-3已經(jīng)擁有大量客戶。這些客戶跟OpenAI的反饋互動也是推動進步的關鍵一環(huán)。相比之下，谷歌的閉門造車就顯得不合時宜，或許是缺乏商業(yè)化的文化，或許是受限于投入產(chǎn)出比，谷歌對于大模型的應用一直很“克制”，即便起點很高，但如果一直像Waymo做自動駕駛一樣小規(guī)模迭代，早晚會被更為開放，獲得更多數(shù)據(jù)的企業(yè)超越。
7. 后續(xù)提升點
RLHF是一種較新的方法，隨著OpenAI不斷摸索，結(jié)合ChatGPT搜集到的用戶反饋，模型還有進一步提升的空間。尤其是在道德/alignment層面，需要屏蔽掉這幾天大家試驗出來的繞過系統(tǒng)限制產(chǎn)生負面信息的方法。
當然也別忘了，OpenAI還有WebGPT這樣的工具，可以理解為高階版網(wǎng)頁爬蟲，從互聯(lián)網(wǎng)上摘取信息來回答問題，并提供相應出處。比如下面的問題How do neural networks work，WebGPT利用了GPT-3本身具備的語義理解能力和互聯(lián)網(wǎng)公開信息，自己結(jié)合出了一份答案，不失為一種升級的搜索能力。
在MIT Technology Review對OpenAI科學家的采訪中，他們提到了后續(xù)有可能將ChatGPT和WebGPT的能力結(jié)合起來。有網(wǎng)友挖掘出了ChatGPT內(nèi)設的提示詞，其中包含browsing:disabled，把瀏覽網(wǎng)頁能力關閉了，也就是說后續(xù)有可能加入這個能力?？梢栽O想，ChatGPT+WebGPT可以產(chǎn)生更為有意思的結(jié)果，信息可以實時更新，對于事實真假的判斷將更為準確。
與WebGPT的這種結(jié)合，對應到上面 action-driven LLM訓練流程圖 的左半部分，即連接外部的信息源和工具庫。事實上網(wǎng)頁搜索只是一種可能，還結(jié)合利用各種工具（比如各種辦公軟件、SaaS軟件），實現(xiàn)更豐富的功能。
在產(chǎn)品層面，是不是有更好的界面和實現(xiàn)方式也值得討論。同屏對話框形式容易讓人產(chǎn)生過高的預期，因為要保障對話的流暢性。在這一點上，Github Copilot產(chǎn)品就做得很好，Copilot主打的是programming pair，以伙伴的身份提出建議。從用戶角度，這個建議好就接受，不好就不接受；即便提出了很多不被接受的建議，但在隨機時間間隔產(chǎn)生的有效建議帶來的爽感就會讓用戶上癮。如果ChatGPT后續(xù)成為寫作助手、編劇助手、工作助手等等，類似Copilot的產(chǎn)品形態(tài)會容易讓人接受。
寫在最后
很多人驚嘆于ChatGPT的能力，但其實真正驚艷的還在后面。OpenAI最厲害的不是他關于大模型的理解，而是其工程化、迭代反饋的能力，以及alignment(AI跟人類目標的統(tǒng)一）方面的工作。很欣賞OpenAI CEO Sam Altman的一句話：“Trust the exponential. Flat looking backwards, vertical looking forwards.” 我們就處在即將起飛的這個點上。

本站僅提供存儲服務，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權內(nèi)容，請點擊舉報。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区