見證真正的魔法吧。
文/以撒
AI繪畫的浪潮卷起后,我們幾乎進(jìn)入了“AI美術(shù)時代”。足夠低的門檻,讓每個人都有機會成為“畫家”,人們也開始思考這場技術(shù)變革到底會走向何方。但與此同時,絕大部分人實際上只對AI繪畫一知半解,更別提有一個系統(tǒng)的認(rèn)知,卻在這種前提下陷入了無休無止的爭論之中。 越是如此,我們就越需要跳出思維定式,把注意力放到技術(shù)本身。因此,在前一陣的直播中,葡萄君邀請到了靈游坊CEO梁其偉、專業(yè)PPT設(shè)計師&知名設(shè)計美學(xué)博主Simon_阿文,以及網(wǎng)易雷火藝術(shù)中心的原畫師HS聊了聊AI美術(shù)的現(xiàn)狀和發(fā)展。(直播回放可在游戲葡萄視頻號觀看) 在直播中,不少觀眾都對他們的分享和見解表示了高度肯定,如果你也想更了解AI美術(shù),這篇文章或許會對你有用。耐心看完,你會發(fā)現(xiàn)畫澀圖可能是對AI繪畫最低級和缺乏想象力的應(yīng)用,而那些日新月異卻被大多數(shù)人忽視的新技術(shù),或許就是下一次技術(shù)革命的基礎(chǔ)。(本文發(fā)出時,技術(shù)亦已有不少更新?lián)Q代,感興趣的讀者可于@Simon_阿文、@Simon的白日夢 的微博自行了解) 由于直播較長,我們將分兩次整理圖文內(nèi)容。本文整理了阿文的分享,以及他和HS有關(guān)AI繪畫的一些實操心得。你可以按以下索引選擇自己感興趣的部分閱讀: 01 AI繪畫的前世:梗圖(AI繪畫的源頭及發(fā)展歷程)
02 AI諸神之戰(zhàn)的第一階段(各種繪畫工具及其對比)
03 AI諸神之戰(zhàn)的過渡階段(最值得關(guān)注的那些AI繪畫逆天功能)
04 AI諸神之戰(zhàn)的第二階段(AI生成視頻、3D模型等未來趨勢)
附:AI繪畫實戰(zhàn)小心得
以下為直播中阿文分享的整理,為方便閱讀,部分內(nèi)容有調(diào)整(圖片來自直播截圖,以及@Simon_阿文、@Simon的白日夢 的微博): 今天我要分享的主題是《AI繪畫的諸神之戰(zhàn)》。首先簡單介紹一下,我是一名PPT設(shè)計師,因為平時經(jīng)常在網(wǎng)上分享一些設(shè)計神器,偶然間接觸到AI繪畫,就一直玩到現(xiàn)在了。
在開始前做一個免責(zé)聲明:我只是一位普通設(shè)計師,本次分享僅代表個人觀點和使用體驗。如果我有專業(yè)技術(shù)概念錯誤,各位一定要及時糾正,謝謝大家。
01
AI繪畫的前世:梗圖
AI繪畫技術(shù)的源頭,最早可以追溯到2015年AI圈子里一項重要的研究——機器可以識別圖像上的物體了。比如你給他一張這樣的圖片,機器就會識別出圖像上的蝴蝶和貓,并返回一個描述句。
這項技術(shù)在當(dāng)年挺轟動的,當(dāng)時就有一群科學(xué)家跑出來說,我能不能把這個過程給調(diào)換一下?把這句話告訴AI,讓它給我一張類似的圖?這應(yīng)該算是目前AI繪畫的發(fā)展源頭——這群科學(xué)家真的跑去研究了。 第二年他們就發(fā)表了一篇論文,里面舉了很多例子。比如告訴AI我需要“一輛綠色的校巴停在停車場上”,AI就真的生成了類似的圖像。這組圖還非常模糊,因為它只有32×32像素,這就是6年前的技術(shù)水平,但當(dāng)時你已經(jīng)能隱約看到AI繪畫的現(xiàn)狀了。
到2021年左右,一家叫Open AI的偉大公司發(fā)表了另一篇論文,說我們已經(jīng)可以把清晰度提得很高了。這項技術(shù)就是初代DALL·E,當(dāng)時也非常轟動。比如你需要“一把牛油果形狀的椅子”,它就會返回這樣的圖像。
你需要“一只大蒜做的蝸牛”/“一只蘋果做的大象”,它也能給出類似的結(jié)果。
大家看到這些圖可能會笑——這不是一些低清的梗圖嗎?拿來使用幾乎是不可能的。2021年,整個社交網(wǎng)絡(luò)、學(xué)術(shù)圈幾乎也是像看段子一樣看待這項技術(shù)。但大家沒想到的是,2022年,AI繪畫元年來了。
今年我們再畫類似的東西會怎么樣?你畫一只蘋果做的大象,DALL·E 2已經(jīng)能做到這樣——它畫出的形態(tài)、結(jié)構(gòu)都非常準(zhǔn)確了。
這樣的質(zhì)量和清晰度,直接用來當(dāng)PPT封面都是可以的。
當(dāng)初我是在一位藝術(shù)家朋友@瘋景CrazyJN的微博上看到AI繪畫技術(shù)的,這是我第一次跟Disco Diffusion相遇,看到時我也非常非常震驚。他畫出來的作品,放在4個月以前,對我的沖擊已經(jīng)非常之大。
于是我馬上去了解了AI繪畫,5分鐘之后,我在Disco Diffusion里打下了一句話:“星空下的向日葵花?!?,看著畫面漸漸從模糊變清晰,我至今依然記得當(dāng)時的那種興奮和震驚,真的非常的夸張——我只需要一句話就能畫出這樣的畫面。
我非常興奮地告訴周圍的朋友,并且讓AI給我畫了一個通宵。
而且讓我完全沒想到的就是,這僅僅是個開始而已。我也沒想到。這個技術(shù)在半年以后的今天已經(jīng)發(fā)展到這么夸張——我們已經(jīng)進(jìn)入到AI諸神之戰(zhàn)的第一階段。
02
AI諸神之戰(zhàn)的第一階段
在這個階段里,你會看到很多優(yōu)秀AI繪畫應(yīng)用的誕生,以及各個大廠的進(jìn)場。因為在座各位可能對AI繪畫工具有一定的了解,我簡單過一下這個階段里的優(yōu)秀代表:第一個當(dāng)然是Disco Diffusion,它是免費開源的。(https://colab.research.google.com/github/alembics/disco-diffusion/blob/main/Disco_Diffusion.ipynb?hl=zh_TW#scrollTo=Prompts)
我對它的評價是「最早出圈的AI繪畫工具」。因為它是純代碼界面、部署在Google上,所以用戶友好度并不那么高。
生成速度上,相信早期體驗過的人也能感覺到絕望——如果不買Colab會員,至少是半小時到40分鐘一張。當(dāng)初我買了會員就掛機一個通宵,第二天早上再起來收圖。這樣持續(xù)了大半個月,我做了很多嘗試和調(diào)教,生成了不少我當(dāng)時還挺滿意的作品,比如讓AI模仿水墨畫、油畫風(fēng)格,甚至是模仿一些大師,比如Joseph Gandy、異形之父 H. R. Giger、吉卜力等等。
我個人非常喜歡靜物油畫,但當(dāng)時只能畫出一些厚涂畫面,要讓AI畫出一組非常清晰的靜物幾乎不可能。于是我就對AI進(jìn)行了調(diào)教——找不同的關(guān)鍵詞、藝術(shù)家去嘗試。
上圖是我的調(diào)教過程,結(jié)果我當(dāng)時還挺滿意的。當(dāng)然,為了遮丑我做了一些排版,美滋滋地發(fā)了一條微博,說我調(diào)教了一整天,終于讓機器人學(xué)會了畫靜物畫。
結(jié)果沒想到,這條微博發(fā)出去沒幾天,我就被打臉了。因為另一個更強大的AI誕生了——MidJourney。(discord.gg/midjourney)
你甚至不用調(diào)教,它就能生成非常美觀的圖片。
它最直觀的特點就是「快」。同樣一句話,它在1~2分鐘內(nèi)就能很好地生成結(jié)果。
當(dāng)時我用的第一個關(guān)鍵詞,是“一組記錄早期麥當(dāng)勞的油畫”。當(dāng)時我5分鐘內(nèi)就得到了大量結(jié)果。
回過頭來看前幾天花了一整天調(diào)教的Disco Diffusion,我就傻了——這種新技術(shù)討厭的地方,就是它直接否認(rèn)了你以前的一些努力,而且后續(xù)MidJourney甚至發(fā)展得更好。這是它在5月份時的表現(xiàn),后面我們可以再看看它現(xiàn)在的表現(xiàn)。
之后我還沒從MidJourney的震驚里醒過來,另一個工具又出現(xiàn)了——Open AI開發(fā)的DALL·E,我對他的評價幾乎是滿星的,無論是友好度、生成速度、精準(zhǔn)度還是藝術(shù)性。(labs.openai.com/waitlist)
它的缺點就是太貴了,現(xiàn)在普通用戶基本用不起,點一次生成就是一塊錢人民幣,除非你對自己的關(guān)鍵詞非常自信,要么你就是人民幣玩家不在乎。
除了速度和精準(zhǔn)度,DALL·E的優(yōu)點凸顯在它的真實性和對關(guān)鍵詞的還原度。大家可以比一下剛才和現(xiàn)在的案例——筆觸、細(xì)節(jié)是完全不一樣的。這是我生成的“一組記錄早期人們沒有WiFi怎么辦的圖片”,看到結(jié)果時我非常興奮。
而且它對人類語言描述的理解度非常高,高到什么程度?可以看這兩個例子:分別是“暴雨后城市人行道水坑上的浮油”——大家可以看到它的反光、倒影;右邊這道抖機靈的題目更夸張:“4個角的三角形你要怎么畫”?這是AI給出的答案。
出于這種精準(zhǔn)的理解力,我對它的概括是:它有可能是「乙方設(shè)計師的終極形態(tài)」。無論你下什么需求,它都能接得住。所以有了它之后,我就覺得世上再沒有傻逼需求了,為什么這么說?因為我反手給了他一個非常經(jīng)典的需求——以前甲方不是總說想讓一頭大象轉(zhuǎn)身嘛,我就嘗試讓大象轉(zhuǎn)身了。
它背后的原理,就是我把這張圖片上大象的背面擦掉,再給AI輸入一個大象面對鏡頭的描述。由于它對風(fēng)格和語言的理解非常精確,所以結(jié)果看起來就真的是轉(zhuǎn)過來了。評論區(qū)的網(wǎng)友非常逗,他們覺得這個需求不夠變態(tài),說能不能把大象塞進(jìn)冰箱?我真的塞進(jìn)去了。
還有同學(xué)說,能不能把大象放到海洋館?我也真的讓大象去游泳了。
還有大象和鯊魚跳舞,大象騎著哈雷狂飆……評論區(qū)的甲方真的太可怕了,但是一點都難不住DALL·E。
甚至還有更扯的——能不能讓大象稱一下曹沖?AI表示我盡力了……
以上就是在五六月份時DALL·E的表現(xiàn)。這三個工具幾乎統(tǒng)治了上半年AI繪畫的話語權(quán),但我完全沒想到的是,這只是一個開始。
在接下來的六七八月,各個大廠陸續(xù)進(jìn)場。比如Google發(fā)表了一個叫Imagen的AI繪畫工具,他敢直接叫板DALL·E,他說我們有前所未有的寫實感和深度的語言理解。Imagen生成的圖像,也確實證明了它有這個能力。(gweb-research-imagen.appspot.com)
看看這些圖的清晰度,對比剛才DALL·E的生成結(jié)果。其實你細(xì)看時還是會感覺到邊緣有一些筆觸感,但真的越來越像照片了。
除此之外,Google是很喜歡一題多解的、非常卷的一家公司,所以沒多久他又推出了另外一個工具叫Parti,效果同樣也非常好。這些大廠的模型你可以簡單地理解為DALL·E的高清版或加強版——大家都在卷圖像的清晰度,以及對語言的理解能力。(parti.research.google)
除了Google,Meta也發(fā)布了叫Make a scene的工具,在創(chuàng)造場景方面非常厲害。(https://twitter.com/MetaAI/status/1547598454922153985)
后來微軟也下場發(fā)布了一個叫女媧的產(chǎn)品,也非???,但生成效果在我看來其實還是DALL·E的加強版。(https://nuwa-infinity.microsoft.com/#/)
他們紛紛下場,都是為了證明自己也有“制造核武器”的能力——AI繪畫嘛,誰不會呀?但是說了這么多,沒有一家開放內(nèi)測。他們只是跑出來發(fā)一篇論文或是發(fā)表一些demo,就沒有下文了。為什么會這樣?其實里面有很多顧慮,首先最重要的就是現(xiàn)在吵得最兇的版權(quán)問題。另外就是考慮到不開源可以造一些壁壘,給自己公司偷跑的機會。 但是這些在另一家公司看來都沒用——非常有名的Stability,他們在8月份發(fā)布了Stable Diffusion。我當(dāng)初對它的形容是「目前AI繪畫的王者」。(https://stability.ai/blog/stable-diffusion-public-release)
為什么這么說?同樣是模仿大師,我們可以看看它的效果。左邊是好幾個月前MidJourney畫的梵高,雖然顏色和構(gòu)圖很像梵高本人,但你會發(fā)現(xiàn)筆觸不太干凈——不過現(xiàn)在已經(jīng)解決了;右邊是讓Stable Diffusion畫的“梵高的長城一日游”,這個語言和風(fēng)格的理解能力就很夸張了。
而且我讓它畫了一些從來沒有出現(xiàn)過的靜物——比如“一個種滿了珊瑚的花瓶”。結(jié)果它真的畫出來了,而且清晰度也很高。
我讓它模仿一位科幻概念作家Simon的風(fēng)格、日本畫家的浮世繪風(fēng)格,也都有不錯的結(jié)果。按理說日本的浮世繪畫家基本不會去過歐洲,但我讓它嘗試用浮世繪畫歐洲風(fēng)景,這個味道卻還是很對。
而在能力如此強大的前提下,Stability最后做出了一個非常重要的選擇——它不像前面的那些大廠選擇保存實力,而是將Stable Diffusion開源。 這意味著什么?我們可以先了解一下Stable Diffusion為什么這么厲害:其中一個原因是巨大的訓(xùn)練數(shù)據(jù)量。它一共有20億張圖片、數(shù)據(jù)量高達(dá)10萬GB的訓(xùn)練集。最終訓(xùn)練完后,它的模型又被壓縮到兩個GB,也就是說現(xiàn)在要生成任何圖像,它都只需要通過這2GB的模型來搞定。
目前很多畫風(fēng)抄襲之類的爭議,其實都偏向于藝術(shù)領(lǐng)域。但我跟開發(fā)者聊過,他們表示我們所謂的藝術(shù)作品,在這20億圖片里只是很小的一個子集——它采集的更多是真實照片和圖像,但大家往往只是熱衷于讓AI模仿概念設(shè)計和藝術(shù)家的畫風(fēng)。所以Stable Diffusion目前展示出來的能力,還是被我們小看了的,它還有更強大的能力有待挖掘,這個我們之后再講。 這么大的訓(xùn)練量,它的訓(xùn)練成本有多高?據(jù)說整體的訓(xùn)練費用在60萬美元左右。這對于一家小公司來說已經(jīng)是天文數(shù)字了,但他們最后選擇了開源,幾乎就改變了整個游戲規(guī)則。 開源就意味著,任何一家公司都可以直接引用它的技術(shù),魔改它的模型。所以我說Stable Diffusion的開源,其實宣告了諸神之戰(zhàn)第一階段的結(jié)束。 關(guān)于第一階段的工具,我個人首先建議不用全都了解,而是熟練掌握其中至少一個就可以了。我比較推薦Stable Diffusion、MidJourney和DALL·E,其中MidJourney是設(shè)計師必修的工具。
第二個建議是我們永遠(yuǎn)只相信大廠的模型,不要去用那些民間開發(fā)的換皮野雞模型。比較具有代表性的一個案例,就是引起了無限爭議的二次元模型NovelAI。我之前在微博上說過不建議大家使用,就是出于這樣的原因。因為大廠建立模型經(jīng)過了很多風(fēng)險的規(guī)避,用它們是相對安全的。 回到剛才的話題,為什么我建議設(shè)計師必修MidJourney?因為MidJourney在每一波的技術(shù)潮流里都沒有特別耀眼,沒有跟風(fēng)地追一些新功能,一點都不激進(jìn)。但是它能踏踏實實地把每一個功能做好,在跟Stable Diffusion合作之后,它推出的模型質(zhì)量也非常高。
所以我之前有這樣的評價:如果說Stable Diffusion是班里的富二代+天才,特別耀眼;MidJourney就是那種踏踏實實做功課,最后考全班第一的學(xué)生。我們可以看看MidJourney的變化:從5月份開始到前一陣的9月份,它的進(jìn)步是有目共睹的。
這是我用AI畫的一組“窗邊少女”,很有意思的是當(dāng)我調(diào)整了窗邊的風(fēng)景,窗外的風(fēng)景也會隨之改變。
另外一個非常值得設(shè)計師們關(guān)注的功能是無縫圖片生成,我們用在一些3D貼圖或背景上都非常好用。
03
AI諸神之戰(zhàn)的過渡階段
以上就是AI繪畫最長的第一階段。所謂的過渡階段,就是在Stable Diffusion開源之后,大家沒有必要再卷新模型了,所以這一階段井噴式地涌現(xiàn)了很多基于Stable Diffusion的插件和應(yīng)用。在第一周誕生的插件數(shù)量,我粗略地數(shù)了一下,大概有十幾個。還有一些是撞型的,比如與Blender、PS相關(guān)的就分別都有兩三個。 有些同學(xué)會問有哪些值得關(guān)注的插件,這個問題是完全錯誤的。為什么?因為我們首先要搞懂 AI繪畫的傳統(tǒng)藝能,再來談插件——90%的插件應(yīng)用,其實都是直接調(diào)用官方的API而已,并沒有多少功能上的創(chuàng)新。如果連工具本身都搞不懂就去用插件,肯定會被插件帶偏。 至于AI繪畫的傳統(tǒng)藝能,我總結(jié)起來一共只有三個,非常重要:第一個叫Inpainting/Outpainting,即局部的重繪或畫面擴展,也可以粗暴地理解為PS的內(nèi)容識別——把一部分內(nèi)容擦掉、識別為其他內(nèi)容。 但是它無敵的地方在于,你擦掉的地方可以無中生有。下面這兩個例子,第一個是Inpainting,即我剛才演示的大象轉(zhuǎn)身;
Outpainting很好理解——擴展畫布,你可以把一幅名畫擴展為一幅非常巨大的寬幕畫。當(dāng)你理解了AI的這些功能之后,我們再來看這些插件,你就會淡定很多。(https://twitter.com/_dschnurr/status/1565011278371794944)
這是當(dāng)初剛發(fā)出來就非常轟動的一個PS插件,它不就是Outpainting嗎?把兩張圖片之間的空白區(qū)域,用文字描述生成的內(nèi)容連接起來。(https://twitter.com/CitizenPlain/status/1563278101182054401)
這是新版PS自帶的AI功能,不就是Inpainting嗎?擦掉一個區(qū)域再重新生成一只貓頭鷹。
(https://blog.adobe.com/en/publish/2022/10/18/bringing-next-wave-ai-creative-cloud?utm_content=225122458&utm_medium=social&utm_source=twitter&hss_channel=tw-708994126205865985)
這同樣也是PS自帶的AI功能,據(jù)說在新版的PS里都會實裝。這不也是Outpainting嗎?
還有一個特別唬人的演示,它看起來似乎能直接擦掉視頻里的主體,然后重新生成一個其他主體。非??犰艑Π??其實它的原理也是Inpainting。演示中被修改的內(nèi)容其實是一個靜幀,只是配合鏡頭的推拉之后,它會顯得像是修改了視頻里的動態(tài)片段,大家千萬不要被嚇到。(https://runwayml.com/)
AI的第二個傳統(tǒng)藝能是image to image——以圖生圖。這個功能也非常常用,早在4月份時Disco Diffusion就已經(jīng)有了,大家可以粗暴地理解為墊圖生成。比如我隨便畫了張構(gòu)圖給AI,就能生成右邊的圖像。當(dāng)然,這要配合一句描述文本。
了解了這個技術(shù)概念之后,再來看這個插件演示,就會發(fā)現(xiàn)它其實也是墊圖生成的一種。只是因為換了Stable Diffusion的模型之后,它生成的結(jié)果變得更好了。(github.com/CompVis/stable-diffusion)
這也是同樣的一張草圖+一句描述,生成一個非常精美的畫面。(https://twitter.com/HanneMaez/status/1556960748592631809)
還有一個非?;H说腂lender插件AI Render,看起來好像直接用AI就能渲染了。
(https://airender.gumroad.com/l/ai-render?continueFlag=9b370bd6ba97021f1b1a646918a103d5)
當(dāng)時我發(fā)微博時,其實很多沒玩過AI繪畫的同學(xué)都誤以為,我直接在blender里拉一個場景,AI就能直接渲染出這么酷炫的畫面。其實說到底它的原理還是墊圖生成——在你當(dāng)前的渲染畫面生成一個靜幀,加一句描述,再用Stable Diffusion渲染成另一個場景,不得不說看起來特別唬人。 AI的第三個傳統(tǒng)藝能是無縫紋理生成。這其實是針對3D用戶的一項細(xì)分功能,現(xiàn)在MidJourney已經(jīng)做得非常好了,而且清晰度非常高。它最高能生成2048×2048——也就是2K的清晰度,用來鋪背景已經(jīng)相當(dāng)夠用了。(https://weibo.com/1757693565/M6WpRqNP8?pagetype=profilefeed)
這樣的功能也被很多廠商或個人開發(fā)者做成插件,比如做到blender里。這是其中一個,乍一看也是非??犰?,但其實這些技術(shù)在各個模型的官方網(wǎng)站里都能做到,且非常成熟。(github.com/carson-katri/dream-textures)
這些分享是為了告訴大家:第一,在AI繪畫的過渡階段里,我們不要過分迷信那些插件或應(yīng)用,永遠(yuǎn)只相信大廠的模型就好了。因為模型里該有的功能都有,所以我們至少掌握其中一種,你就沒那么焦慮了。 第二,我們可以密切關(guān)注一些大廠的產(chǎn)品。這里的大廠指的是設(shè)計公司中的大廠,比如Adobe、微軟等。他們發(fā)布的一些內(nèi)置功能,可能比任何插件都靠譜。如果你懶得關(guān)注,也可以密切關(guān)注我的微博,我會經(jīng)常轉(zhuǎn)發(fā)一些較新的技術(shù)新聞。
前幾天在Adobe max大會上,Adobe發(fā)布了他們未來有關(guān)AI工具的演示。我剛才提到所有的傳統(tǒng)藝能,它幾乎都內(nèi)置到了PS等一系列全家桶產(chǎn)品里了,而且非常絲滑。用這樣的官方插件,效果肯定比那些民間插件要好。 包括微軟的office系列,他們非常聰明,直接選擇跟Open AI——也就是DALL·E合作,發(fā)布了一款叫Microsoft Designer的產(chǎn)品。當(dāng)然,它的實際效果可能沒有宣傳片那么夸張——微軟是出了名的宣傳片大廠。但是其中演示的文字生成圖片、自動排版等功能,都是可以實現(xiàn)的。(https://designer.microsoft.com/)
吐槽完插件和應(yīng)用之后,有同學(xué)會問Text to image真的已經(jīng)玩到頭了嗎?其實還有幾個值得我們關(guān)注的模型。如果說AI諸神之戰(zhàn)第一階段,我們要關(guān)注的是模型生成能力,那么過渡階段我們就應(yīng)該關(guān)注編輯能力——也就是AI對畫面的微調(diào)能力。
這里我推薦大家關(guān)注兩個產(chǎn)品或方向:第一個叫DreamBooth,它由Google開發(fā),現(xiàn)在已經(jīng)有大神把它做成開源版本了。它能做到完美解決畫面的連貫性問題。(https://colab.research.google.com/github/TheLastBen/fast-stable-diffusion/blob/main/fast-DreamBooth.ipynb) 傳統(tǒng)的AI工具生成的圖片都是獨立分開的,你沒法讓同一個主體出現(xiàn)在連續(xù)的畫面里,也就是說我們沒辦法讓AI自己畫連續(xù)的漫畫或分鏡。但在這個產(chǎn)品中,你上傳幾張圖片之后,AI就會記住你圖片中的主體。當(dāng)你再在AI里輸出時,它就能記住主體的樣子,并且套用到你的描述句中。 比如我給AI識別一條小狗,只需要給它3到4張圖片,就能生成右邊這一大堆不同風(fēng)格的小狗。
這招如果被用在一些分鏡設(shè)計或漫畫的演示里,會非??犰?。國外有一個整活天團(tuán),就嘗試用人來做這樣的生成——他們給同事拍了幾張照片,丟到AI里訓(xùn)練,最后用Stable Diffusion生成出來。可以看到,當(dāng)AI記住了一個人的面部特征后,它就能直接將其作為關(guān)鍵詞生成各種不同風(fēng)格的圖片。
有些同學(xué)可能會吐槽:這不是早就有的換臉技術(shù)嗎?大家可以仔細(xì)看看,這跟換臉是完全不一樣的——它可以生成不同扮相的圖像,甚至是樂高風(fēng)格,這是換臉換不出來的效果。
另一個值得關(guān)注的產(chǎn)品,是Google最近發(fā)表的Imagic,它可以讓整項技術(shù)“快進(jìn)到甲方說唱出需求”。(github.com/justinpinkney/stable-diffusion/blob/main/notebooks/imagic.ipynb)我們知道,Inpainting就是擦掉畫面的一部分再重新生成內(nèi)容,但是現(xiàn)在的技術(shù)已經(jīng)能做到不擦除畫面上的任何東西,而是改變描述文本,AI就會直接相應(yīng)地改變圖像。
04
AI諸神之戰(zhàn)的第二階段
說了這么多,其實所有事情幾乎都發(fā)生在9月份之前。而在9月份的最后一天,AI繪畫諸神之戰(zhàn)的第二階段開始了——他們開始卷卷視頻和3D模型了。這里我快速給大家過一下,我們要關(guān)注哪些大廠的模型或產(chǎn)品。 首先,最快發(fā)表Text to video技術(shù)的是Meta。它在那天深夜發(fā)了一條推特,看得我完全睡不著了。第一,它能做到一句話生成這樣的視頻。(https://makeavideo.studio/)
第二,它能讓一段素材視頻衍生出不一樣的風(fēng)格。
第三,你上傳兩張相近的圖片,它能自動用視頻生成過渡內(nèi)容。這里的過渡可不是指直接的淡入淡出或追蹤,而是重新生成。
第四,它能讓圖片動起來。我們以前在AE里想做到下面這件事,起碼要先把海龜摳出來再做一些綁定,但是用AI一句話就搞定了,甚至還能轉(zhuǎn)身,非??鋸垺?nbsp;
這是讓一張油畫動起來的效果。這些水的效果,我相信現(xiàn)在有很多插件也能做,但是做到這種程度應(yīng)該要花很多時間。
以上幾個小功能,是大廠未來絕對會卷的另一個方向。 Meta發(fā)布這個論文之后沒多久, Google也下場了,而且連發(fā)兩條。第一個就是根據(jù)之前Imagen模型發(fā)布的視頻版本,它能做到素材級別的清晰度。(https://imagen.research.google/video)
在同一天,Google又發(fā)布了另一個模型Phenaki。Google真的很卷,他們的科學(xué)家團(tuán)隊最近瘋了一樣地對外發(fā)表論文,而且每一篇都非常夸張。有同學(xué)提出,AI能不能讓生成的視頻具有邏輯上的連續(xù)性?比如我輸入一段劇本,AI為我輸出一部電影——這個模型似乎證明了,這種設(shè)想是可以實現(xiàn)的。(https://phenaki.video/)
大家可以細(xì)看這圖片下方的描述,感受一下AI在描述與描述之間的畫面切換,非常流暢。而且它除了模擬實物,還能套用風(fēng)格。
除此之外他們測試了一下,用了一個老模型生成了兩分鐘的視頻。當(dāng)然,生成內(nèi)容看起來還是有瑕疵,清晰度也不夠,但是大家想想,當(dāng)初AI繪畫最早期不也是這樣嗎?所以我們可以大膽暢想未來。
這就是在Text to video方面我們需要關(guān)注的一些產(chǎn)品。值得一提的是,這三個模型居然是在同一天發(fā)表的,可見他們卷成什么樣了。
Text to model——也就是AI生成3D模型方面,又有哪些需要我們關(guān)注呢?這里我簡單列舉一下:首先是dreamfusion3d——文字直出模型。還有通過單張圖片生成3D模型,它的做法非常巧妙,并不是直接到3D模型這一步,而是用AI繪畫把桌子或椅子的三視圖腦補出來再生成模型。(dreamfusion3d.github.io)
如果大家對Text to 3D有興趣,可以關(guān)注我的好朋友@Simon的白日夢,他是這方面的專家,在微博上發(fā)表了很多關(guān)于AI生成3D模型的知識。
以上就是我今天所有的分享,這么長的一個階段,在我們?nèi)祟愒O(shè)計師看來,這種進(jìn)步放在自己身上是不可想象的,但整個過程確實只過了6個月而已。未來會發(fā)展成什么樣?我也不知道。
有人會說,知道這些有什么用?我想說的是,想要彎道超車,我們就要學(xué)會足夠多的歪門邪道。況且我以上說的這些技術(shù)并非歪門邪道——它們很可能就是下一次技術(shù)革命的基礎(chǔ)。
05
附:AI繪畫實戰(zhàn)小心得HS:在實際的AI繪畫中,有些同學(xué)對關(guān)鍵詞的描述不是特別清晰。我們先用“絲綢之路”來試試——如果單純輸入這個詞的機翻,它會生成一個非常單一的沙漠場景。因為現(xiàn)在它對關(guān)鍵詞的理解,其實更多會偏向美國公路之類的描述。
我們可能需要到網(wǎng)站或維基百科上找尋一些官方翻譯,另外也可以再拓展一些元素,比如它是中國唐代絲綢之路、有一些商隊駱駝、參考了一些游戲,比如《刺客信條》、有夜晚星空,再加上虛幻引擎的渲染,呈現(xiàn)出的效果就會和之前完全不同,會有一些故事性。
另一位同學(xué)提供的詞是“大鬧天宮”,它的機翻是“the Monkey King”,直接輸入會生成一個妖猴,跟大鬧天宮還是有點差異的。
如果調(diào)整為“孫悟空在天宮制造了一場災(zāi)難”,畫出來就會有不一樣的效果。作為方案參考的話,這些已經(jīng)足夠了。如果你想?yún)⒖紕赢嬈娘L(fēng)格,還可以輸入電影制片廠或動畫片名之類的關(guān)鍵詞。
所以我們在輸入關(guān)鍵詞時,一定要經(jīng)過大腦的思考和演變,才能讓AI更好理解你要的是什么。 Simon_阿文:我個人的繪畫思路其實非常簡單——抄作業(yè)。相信很多同學(xué)剛接觸AI繪畫時都是小白,不知道怎么寫關(guān)鍵詞。但現(xiàn)在我們有很多可供參考的關(guān)鍵詞庫,比如你買了MidJourney的付費服務(wù),就會得到一個官方的主頁面,它的社區(qū)里會每天推送不同的優(yōu)秀作品。
這些首頁AI作品的質(zhì)量都非常恐怖,所用的關(guān)鍵詞也絕對是頂流。我平時的習(xí)慣就是把這個頁面設(shè)為瀏覽器的默認(rèn)打開頁,每天進(jìn)來時收收菜——收藏一些關(guān)鍵詞以備之后參考。
但是大家在抄作業(yè)時要注意一點:直接復(fù)制這些關(guān)鍵詞,效果往往不是最好的,因為很多高手會加修改器指令。正確的方法是復(fù)制它的命令,命令包含了這張圖的關(guān)鍵詞和所有修改器指令。
指令是AI工具獨有的一些快捷設(shè)置。比如設(shè)置比例是--ar 加上比例(如16:9),調(diào)用測試模型要加--test,要讓畫面更有創(chuàng)意,更接近原畫質(zhì)感,那最好加一個--creative。 這些指令你要翻工具對應(yīng)的文檔才會知道,很多同學(xué)就是因為漏了這些,所以生成效果沒那么好。如果你有某個需求想不出關(guān)鍵詞,還可以在社區(qū)直接搜索,這是一個快速學(xué)習(xí)的方法。
但是這也有一點不好:很多時候我們復(fù)制了一大段描述,卻不知道文本在說什么。我們平時輸入關(guān)鍵詞可能只是寫一句話而已,但很多高手是像寫小說一樣。這時我們要怎么去學(xué)習(xí)?我的方法是翻譯一下,找到這段關(guān)鍵詞里最終產(chǎn)生需求畫面的部分。像是high detAIl、UE5等,都是非常通用的關(guān)鍵詞,看多了就會找到規(guī)律。 還有一個大招,就是去第三方的關(guān)鍵詞推薦庫查找。推薦大家兩個網(wǎng)站,一個是KREA(krea.AI),能直接搜到很多現(xiàn)成的關(guān)鍵詞。
同類的還有另一個網(wǎng)站lexcia(lexcia.art),它們只針對于Stable Diffusion,但除了修改器指令不同之外,關(guān)鍵詞都可以通用。