九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
OpenAI炸裂升級(jí)!又一個(gè)行業(yè)被干掉了

沒想到一覺醒來,朋友圈突然被一則新聞刷屏:OpenAI發(fā)布文生視頻模型Sora 。
好家伙,瞬間給我拉回工作氛圍。
人們一直期待GPT-5,但Sora帶來的轟動(dòng)不亞于GPT-5的發(fā)布。
之前大家還在關(guān)注,谷歌推出的Gemini能否殺死GPT4,全世界各大科技巨頭能否在這波AI浪潮中彎道超車。
現(xiàn)在,顯然沒人關(guān)注了。
因?yàn)镺penAI自己可能要用它先殺死GPT-4了。
我上官網(wǎng)(https://openai.com/sora)看了演示視頻,無論從視頻流暢度還是細(xì)節(jié)表現(xiàn)能力上,Sora的效果都相當(dāng)驚艷。
難怪有人說:現(xiàn)實(shí),不存在了。
比如官推里這條14秒的東京雪景:美麗的,被雪覆蓋的東京正繁忙著。鏡頭穿過繁忙的城市街道,跟隨著幾個(gè)享受雪景和在附近攤位購物的人。美麗的櫻花瓣隨風(fēng)飄落,與雪花一同飛舞。
盡管我們能感覺到,還有那么一些不自然。但當(dāng)素材用,已經(jīng)足矣。
又比如下面這張對(duì)法令紋和痘印的刻畫,只要不去吹毛求疵,確實(shí)已經(jīng)足夠真實(shí)。
說句不該說的,這張圖,至少看起來比坐在美顏前面的女主播們真實(shí)……
網(wǎng)友們也第n+1次紛紛哀悼起相關(guān)賽道的公司們:
“OpenAI就是不能停止殺死創(chuàng)業(yè)公司?!?/span>
“天哪,現(xiàn)在起我們要弄清什么是真的,什么是假的?!?/span>
“我的工作沒了?!?/span>
“整個(gè)影像素材行業(yè)被血洗,安息吧。”
……

01 現(xiàn)實(shí)與虛擬的界限 



其實(shí),文字生成視頻這回事,早就不新鮮了。
2023年8月,RunwayGen2正式推出,AI生成式視頻正式進(jìn)入大眾視野。
到今年初,不計(jì)其數(shù)的產(chǎn)品一個(gè)接一個(gè),PIKA、Pixverse、SVD、Genmo、Moonvalley……等等等等。
太多了,也太卷了。
我們能明顯感覺到,最近小半年刷的短視頻里,多了很多不自然的視頻。稍微品一品,就能察覺這肯定不是人工剪輯的。
首先,沒有超過4s的連貫鏡頭;其次,很不自然。
這些實(shí)用的工具,基本都是小公司出品的,功能并不完善。
說不完善都還算保守了,簡直就是漏洞百出。
視頻內(nèi)容歸根結(jié)底,是對(duì)現(xiàn)實(shí)世界的還原。既然如此,那其中必然包含大量交互鏡頭——物與物、人與人、人與物,等等。
就像用攝像機(jī)拍出來的片段一樣。
我們看電影、看視頻,看的也是交互,相信沒幾個(gè)人喜歡看一個(gè)人的獨(dú)白。
比如,玻璃杯從桌子上摔到地上,它應(yīng)該碎掉;像皮球摔到地上,它應(yīng)該彈兩下。
但讓AI去合成這類場景,你就會(huì)發(fā)現(xiàn),它并不會(huì)還原以上的物理現(xiàn)象。物體與物體碰撞或疊加到一起,AI只會(huì)讓其中一方變形。
這說明了一個(gè)關(guān)鍵問題:過去的AI并不理解現(xiàn)實(shí)世界的規(guī)律。
不符合人類常識(shí)的視頻,能有多大市場呢?
不理解基礎(chǔ)物理的AI,它的上限能有多高?
想要解決這個(gè)問題,難不難?很難。
現(xiàn)在的AI大模型,雖然是模擬的人腦,但畢竟有所區(qū)別。
最本質(zhì)的區(qū)別在于:AI 沒有想象力。
比如,你一巴掌扇在我臉上,面部肌肉如何顫動(dòng)?把一顆魚雷扔進(jìn)池塘,水面如何散開?
我們可以想象到后續(xù)會(huì)發(fā)生的事情,AI 不能。
無論它的參數(shù)堆得多高、計(jì)算速度再快,都不能。
即便是目前的Sora也做不到。
從各種演示例子中可以看到,雖然Sora 對(duì)自然語言有著深入的理解,能夠準(zhǔn)確洞悉提示詞,生成表達(dá)豐富的內(nèi)容,甚至可以創(chuàng)建多個(gè)鏡頭、保持角色和視覺風(fēng)格的一致性。
但是,它依然無法準(zhǔn)確模擬出復(fù)雜場景的物理現(xiàn)象,因?yàn)樗焕斫庖蚬P(guān)系。
比如,人咬了一口餅干,但餅干上沒有咬痕;又或者混淆左右、不遵循特定的攝像軌跡;甚至無法理解,影子是人的影子還是物的影子……
如此一來的結(jié)果,便是合成有違物理常識(shí)的視頻。
既然如此,Sora到底牛在哪里,為什么這么多人追捧它?
因?yàn)樗鋵?shí)做得足夠好了,至少比同行們好太多了。
用Fortune雜志的話來說就是:將生成式AI之戰(zhàn)轉(zhuǎn)移到了好萊塢。
用官網(wǎng)的話來說,它能夠生成包含多種角色和特定類型的運(yùn)動(dòng),主體和背景細(xì)節(jié)準(zhǔn)確;還能理解事物在物理世界的存在方式。
簡單來說,它雖然還不能理解需要想象力的因果律,但最基本的現(xiàn)實(shí)場景,它是可以還原的。
AI生成視頻這一條賽道,誕生至今還不到1年,我們確實(shí)不能要求太高。
如果把上文描述的內(nèi)容當(dāng)做終結(jié)目標(biāo),把去年至今的一系列生成工具作為雛形,Sora大概處在兩者之間。
它是如何做到的?

02 誰站在巨人肩上? 



Sora主要采用了兩種技術(shù)。
一個(gè)是擴(kuò)散模型(diffusion model),原本是用于文字轉(zhuǎn)圖片的。
簡單來講,是先生成一張全是noise(噪聲)的圖片,與目標(biāo)圖片的vector尺寸相同(比如目標(biāo)圖片是256*256,初始sample圖片也要是256*256),然后經(jīng)過若干次denoise(去噪聲),讓圖片逐步成型。
問題在于,大模型怎么知道去除什么?保留什么?
當(dāng)然需要訓(xùn)練。
研究人員得先用清晰的圖片,一步一步加噪聲進(jìn)去,如下圖。
這是上圖的逆序,即反向擴(kuò)散。

看懂了上面兩個(gè)步驟,你才能理解MIT Technology Review究竟在說啥:
Sora的團(tuán)隊(duì)使用了DALL-E 3背后的技術(shù),即擴(kuò)散模型。擴(kuò)散模型經(jīng)過訓(xùn)練后可以將模糊的隨機(jī)像素變成圖片。
其原理并不復(fù)雜,但需要時(shí)間和人力成本。
另一項(xiàng)技術(shù)是Transformer的神經(jīng)網(wǎng)絡(luò),就是GPT(Generative Pre-Trained Transformer)中的T。
但是,Transformer 架構(gòu)人盡皆知,在文字、圖像生成上已經(jīng)成為主流,為什么別人沒想著在視頻生成上用,就OpenAI 用了呢?
用技術(shù)的話來說:Transformer 架構(gòu)中,全注意力機(jī)制的內(nèi)存需求會(huì)隨著輸入序列長度而二次方增長。
說人話就是:計(jì)算成本太高了。
即便OpenAI背靠微軟,各種融資拿到手軟,也不愿意這樣燒錢。
所以他們開發(fā)了一個(gè)視頻壓縮網(wǎng)絡(luò),先把視頻數(shù)據(jù)降維到latent(潛空間),再將壓縮過的數(shù)據(jù)生成 Patche,這樣就能使輸入的信息變少,有效減小計(jì)算量壓力。

然后,為了讓大模型更好理解用戶的意思,OpenAI 直接把文生視頻模型套進(jìn)已經(jīng)得到市場認(rèn)可的GPT模型范式中,這就是它獨(dú)有的優(yōu)勢(shì)了。
使用者輸入的提示詞,并非直接交給Sora,而是先讓成熟的GPT將文本進(jìn)行精準(zhǔn)詳細(xì)的擴(kuò)寫。
Sora再根據(jù)GPT提供的詳細(xì)文本,逐幀生成更準(zhǔn)確的視頻。
說實(shí)話,個(gè)人認(rèn)為,這才是Sora有別于其他模型的最大優(yōu)勢(shì)。
其他團(tuán)隊(duì)即便能解決其他步驟,但沒有成熟的大模型,也是白搭。
整體上看,Sora的成功幾乎是水到渠成的。
它能有如今驚艷的表現(xiàn),基本全部得益于OpenAI過去的成果,有些是借用了思路,有些則是不可或缺的基本架構(gòu)。
這就是所謂的先發(fā)優(yōu)勢(shì)了,它不僅僅體現(xiàn)在老生常談的壟斷問題上面。
一生二、二生三、三才生萬物。
反觀OpenAI此時(shí)此刻全世界的各大競爭對(duì)手,無一例外全部卡在文生文、文生圖上。
更有甚者,連一都沒有的,還是老老實(shí)實(shí)抓緊做底層。不然等先發(fā)者三生萬物了,真的是什么都晚了。
我們能明顯感覺到,AI比過去任何行業(yè)的迭代都要快。
也許,這個(gè)技術(shù)差只要維持兩年,就會(huì)變成永遠(yuǎn)無法逾越的鴻溝。
所謂“差距只有幾個(gè)月”、“彎道超車”,基本是不存在的。

03 尾聲 



正如上文所說,Sora目前仍有很大缺陷。
它能生成復(fù)雜、精美且足夠長的視頻,這證明AI在理解現(xiàn)實(shí)世界的能力上有相當(dāng)大的提升。
但這種提升,依然基于大量的訓(xùn)練,而不是AI本身對(duì)世界的理解。Sora對(duì)視頻的處理依舊是有很多局限性,甚至包括很基本的事實(shí)錯(cuò)誤。
所以Sora給人的感覺雖然震撼,但還稱不上這兩天熱烈討論的“世界模型”。
所謂“現(xiàn)實(shí)不存在了”,絕對(duì)不是指現(xiàn)在。
但未來說不準(zhǔn)。
在我們普通人眼中,Sora就是個(gè)文生視頻模型。它的出現(xiàn),意味著大多數(shù)影視、視頻制作從業(yè)人員,即將失業(yè)。
但對(duì)OpenAI團(tuán)隊(duì)而言,并不僅此而已——這必然是他們構(gòu)建AGI(通用人工智能)的重要環(huán)節(jié)。
AGI與世界的交互不僅體現(xiàn)在文字、圖片和語音等形式上,還有更直接的視覺視頻,這也是人類自古以來認(rèn)知和理解世界最重要的方式。
所以生成視頻、理解視頻和理解物理世界,是未來AGI必備能力之一。
此時(shí)此刻,我們還能想象得到,生成式AI會(huì)對(duì)影視、游戲制作行業(yè)造成天翻地覆的影響。
等到通用人工智能問世的那一刻,AI到底能做什么、會(huì)對(duì)世界造成多大的影響?
所有人都能想象到的,是必然會(huì)應(yīng)用到具身智能,也就是機(jī)器人上。
但除此之外呢?抱歉,想象力有限,真的想象不出來。
或許,AI真的就是全人類期待了幾十年的那個(gè)技術(shù)奇點(diǎn)。你知道某些事情會(huì)發(fā)生,但無法想象究竟是什么事。(如果能想象,那也就不叫奇點(diǎn)了)
只能祈禱,未來是星辰大海,商機(jī)遍地。(全文完)
▍格隆匯·2024·真實(shí)中國人的真實(shí)年》&《我的歸鄉(xiāng)記合輯

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
效果炸裂!OpenAI首個(gè)視頻生成模型發(fā)布,網(wǎng)友:整個(gè)行業(yè)RIP
失控,OpenAI震撼發(fā)布Sora視頻生成模型!!AI視頻新時(shí)代到來了
OpenAI又爆了!首個(gè)視頻生成模型Sora驚艷亮相,視頻行業(yè)被顛覆?
厲害了OpenAI,發(fā)布Sora視頻生成模型,讓畫面變得更加逼真擺脫定格動(dòng)畫風(fēng)格!
炸裂AI技術(shù)Sora背后:奧特曼清單法
這是AI生成的!
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服