智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影
“天下佳山水,古今推富春?!?/p>
中國古代水墨山水畫的巔峰之筆《富春山居圖》是元代畫壇宗師、“元四家”之首黃公望晚年的杰作,這一傳世名畫于清代順治年間遭火焚,斷為長短兩卷,后人再無從知曉缺失的原畫。
在今日舉辦的2022百度世界大會上,百度首席技術(shù)官王海峰展示了基于百度文心大模型“補(bǔ)全”的《富春山居圖》。
浙江博物館館藏《富春山居圖·剩山圖》局部(左上),臺北故宮博物院館藏《富春山居圖·無用師卷》局部(右上),AI補(bǔ)全《富春山居圖》并題詩(下圖紅框處)
AI補(bǔ)全《富春山居圖》過程
從補(bǔ)全的內(nèi)容來看,水平如何?
黃公望紀(jì)念館負(fù)責(zé)人毛傳鑌的評價是:“與現(xiàn)存真跡風(fēng)格一致,使兩岸畫卷走出博物館實(shí)現(xiàn)了合璧,光線風(fēng)格統(tǒng)一,山水脈絡(luò)和諧,不僅符合原畫審美特點(diǎn),視覺上還同樣具有觀賞價值。”
文心大模型還為畫作題詩一首,連撒貝寧都直呼“太凡爾賽了”。
文心大模型為《富春山居圖》題詩
用AI修復(fù)老照片、讓畫中人“活”起來……AI參與文物修復(fù)中的案例已經(jīng)屢見不鮮,但此次用百度文心大模型“補(bǔ)全”富春山居圖與以往不同——在其技術(shù)支撐下,每個人都可以參與其中。
只要在百度APP搜索“富春山居圖”,你就能參與到這一傳世之作的“虛擬修復(fù)”中,僅需不到1秒,在中間空白處簡單勾勒幾筆,便能像專業(yè)畫家般寫意山川,補(bǔ)全你心中的《富春山居圖》。
撒貝寧現(xiàn)場體驗(yàn)“AI作畫”
究竟是怎么實(shí)現(xiàn)的?我們一起看看背后的技術(shù)。
要“補(bǔ)全”一幅傳世名畫,有三大技術(shù)難點(diǎn):高清晰度、高還原度、全民參與。
以前許多將AI應(yīng)用于歷史畫作的修復(fù)清晰度并不高,而只有實(shí)現(xiàn)高清尺寸的補(bǔ)全,做到逼真的細(xì)節(jié),生成的畫作才能具備更高的藝術(shù)觀賞性。
在只有一幅《富春山居圖》樣本的條件下,要高度還原黃公望這位“元四家”之首的大師作品,呈現(xiàn)出與原作相近的繪畫風(fēng)格,對模型的遷移學(xué)習(xí)能力則提出了極高要求。
最后,要通過H5互動,讓更多人參與到《富春山居圖》的“虛擬修復(fù)”中,難點(diǎn)是同時滿足所有人多樣化的創(chuàng)作期望和天馬行空的創(chuàng)意想法。
每個人都可以借助AI補(bǔ)全自己心中的《富春山居圖》
解決這些問題的利器,是大模型。
據(jù)百度技術(shù)人員介紹,文心大模型只用不到1秒鐘,就能補(bǔ)全《富春山居圖》這樣一幅高清藝術(shù)畫作,這大大提升了內(nèi)容創(chuàng)作的效率。
因?yàn)閰?shù)量大、建模能力強(qiáng),文心大模型既能確保生成清晰度較高的畫作,又能將大眾不同的補(bǔ)全創(chuàng)意實(shí)時轉(zhuǎn)化生成。
文心大模型運(yùn)用了“視覺生成大模型 單樣本微調(diào)”的技術(shù)策略:先是學(xué)習(xí)大量的中國山水畫,實(shí)現(xiàn)了從山水畫“小白”向“大師”的進(jìn)階,等具備“大師”水平后,它再去學(xué)習(xí)黃公望的《富春山居圖》,就能更快速地掌握這幅傳世名作的精髓,從而讓補(bǔ)全的畫作與現(xiàn)存真跡風(fēng)格一致。
考慮到用戶意圖存在很強(qiáng)的主觀性,要讓用戶的創(chuàng)作意圖得以體現(xiàn),需保證生成的畫面結(jié)構(gòu)與用戶的筆觸一致。
對此,百度團(tuán)隊(duì)進(jìn)行了大量調(diào)試,來確定畫作中風(fēng)格與用戶筆觸的對應(yīng)關(guān)系,并且前期讓更多的用戶盡量都嘗試修復(fù),收集、照顧不同用戶的繪制筆觸的特點(diǎn),從而做好修復(fù)效果與用戶筆觸引導(dǎo)結(jié)果之間的權(quán)衡;同時在部分尺度上引入隨機(jī)性,來讓生成結(jié)果擁有更多可能性,大模型也有強(qiáng)大的泛化能力來保證生成結(jié)果的穩(wěn)定。
像這樣的人工智能自主生成內(nèi)容(AIGC),是繼UGC、PGC之后一種新的內(nèi)容生產(chǎn)方式,它不僅能提升內(nèi)容生產(chǎn)的效率,也會創(chuàng)造出有獨(dú)特價值和獨(dú)立視角的創(chuàng)意內(nèi)容。
在百度世界大會上,百度創(chuàng)始人、董事長兼CEO李彥宏分享了AIGC將走過的三個發(fā)展階段:第一階段是“助手階段”,AIGC輔助人類進(jìn)行內(nèi)容生產(chǎn);第二階段是“協(xié)作階段”,AIGC以虛實(shí)并存的虛擬人形態(tài)出現(xiàn),形成人機(jī)共生的局面;第三階段是“原創(chuàng)階段”,AIGC將獨(dú)立完成內(nèi)容創(chuàng)作。
而大模型技術(shù)的突破,正在加速這個發(fā)展趨勢。
在文心大模型的支持下,AI已具備很強(qiáng)的理解和生成能力,能實(shí)現(xiàn)創(chuàng)意作品的自動生成,包括AI作畫、AI寫歌、AI剪輯等。再往后發(fā)展,基于大模型的AIGC有望成為內(nèi)容生產(chǎn)的主流模式。
“未來十年,AIGC將顛覆現(xiàn)有內(nèi)容生產(chǎn)模式,可以實(shí)現(xiàn)以1/10的成本,以百倍千倍的生產(chǎn)速度,去生成AI原創(chuàng)內(nèi)容?!崩顝┖暾f。
除了補(bǔ)全《富春山居圖》外,百度AI數(shù)字人同樣展示出強(qiáng)大的創(chuàng)作能力。
擔(dān)任今天百度世界大會的AI策劃官、助理主持人和開場嘉賓的百度AI數(shù)字人希加加,也特別展示了一把創(chuàng)作技能。
現(xiàn)場,主持人撒貝寧出了個難題:“畫一張現(xiàn)代派、朦朧感、五彩繽紛的——貓。”
不一會兒,希加加就交出了一幅作品:
看起來是不是還挺切題的?
百度AI數(shù)字人已在許多場景中展現(xiàn)AI繪畫功底。比如近期,希加加發(fā)布并售賣和Qee熊、FE賽車合作的畫作,另一位數(shù)字人度曉曉亦創(chuàng)作了“無界”系列畫作并參加西安美院本科生畢業(yè)展。
度曉曉攜AI畫作參加西安美院本科生畢業(yè)展
這些參展畫作均有AI自動生成,每幅畫的創(chuàng)作時間只需數(shù)十秒,效率遠(yuǎn)超人類。
不過,AI作畫只是其AIGC能力的一小部分,自動生成內(nèi)容技術(shù)賦予了數(shù)字人強(qiáng)大的創(chuàng)造力。希加加會寫詩、作曲、唱跳、實(shí)時直播,用多國語言交流;度曉曉挑戰(zhàn)了高考語文作文,40秒就能寫出40篇,隨機(jī)抽取的一篇分?jǐn)?shù)趕超了約75%的高考考生。
像希加加、度曉曉這樣有豐富技能傍身的數(shù)字人還有很多。據(jù)百度集團(tuán)副總裁袁佛玉介紹,百度智能云打造了一個數(shù)字人平臺“曦靈”,提供數(shù)字人的制作和運(yùn)營服務(wù),已形成了一個“AI數(shù)字人家族”。“隨著百度AI算法的突破,我們能讓數(shù)字人制作成本十倍、百倍地下降,還能讓數(shù)字人生產(chǎn)周期,從動輒幾個月,縮短到小時級別。”
和AI復(fù)原《富春山居圖》一樣,這些百度數(shù)字人的AIGC能力也來自百度飛槳及文心大模型。
例如,AI數(shù)字人對話能力,使用的是對話生成大模型-文心PLATO,PLATO擁有接近真人對話水平的;數(shù)字人畫畫能力,使用的是文心大模型-跨模態(tài)圖文生成模型ERNIE-ViLG,它不僅支持自動生成油畫、水彩畫、中國畫等多種風(fēng)格的圖像,還能實(shí)現(xiàn)“看圖說話”的效果。
文心ERNIE-ViLG圖文雙向生成統(tǒng)一建??蚣?/p>
預(yù)訓(xùn)練大模型(簡稱“大模型”)是當(dāng)前人工智能發(fā)展的重要方向,具有效果好、泛化能力強(qiáng)的特點(diǎn),能顯著降低AI開發(fā)和應(yīng)用的門檻。
談及大模型的能力,李彥宏舉例說,人的學(xué)習(xí)和記憶能力是有限的,《全唐詩》有接近5萬首,通讀都很難,背誦就更不容易了。但這對于大模型來說,根本就不是事兒。
而百度基于產(chǎn)業(yè)級深度學(xué)習(xí)平臺飛槳打造的知識增強(qiáng)大模型——百度文心大模型從大規(guī)模知識和海量數(shù)據(jù)中融合學(xué)習(xí),學(xué)習(xí)效率更高、學(xué)習(xí)能力更強(qiáng),還能跨語言、跨模態(tài)學(xué)習(xí),一旦跨過某個奇點(diǎn),就能產(chǎn)生真正意義上的AI原創(chuàng)內(nèi)容。
“輕輕幾筆連接山河”的背后,文心大模型已從技術(shù)創(chuàng)新邁進(jìn)場景落地,為不同產(chǎn)業(yè)提供新思路。
作為國內(nèi)首個可交互虛擬偶像,度曉曉在百度App中為用戶提供的全程AI陪聊功能,以及在聊天過程中表現(xiàn)出更高的“智商”和“情商”,也來自文心大模型的支持。這一方面意味著對話交互式搜索新時代的到來,另一方面也是大模型支持下AIGC能力逐漸成熟的體現(xiàn)。
包括AIGC方向在內(nèi),文心大模型已經(jīng)規(guī)?;瘧?yīng)用于百度信息流、智能音箱等互聯(lián)網(wǎng)產(chǎn)品,并落地到工業(yè)、能源、教育、金融、通信等行業(yè)的智能化轉(zhuǎn)型升級中。
例如在媒體行業(yè),文心大模型的理解和生成創(chuàng)作能力激發(fā)創(chuàng)意,提升內(nèi)容多樣性,降低了制作成本;在保險(xiǎn)領(lǐng)域應(yīng)用中,文心大模型的智能解析能力,能使文本處理效率提升30倍;在醫(yī)療領(lǐng)域應(yīng)用中,文心大模型將每份病歷的檢查時間,從30分鐘縮短到了秒級。
目前,百度文心已發(fā)布20多個大模型,既包含基礎(chǔ)通用的大模型,也包含面向重點(diǎn)任務(wù)領(lǐng)域和行業(yè)的大模型,以及豐富的工具與平臺,支撐企業(yè)與開發(fā)者進(jìn)行高效便捷的應(yīng)用開發(fā)。
文心大模型全景圖:由模型層、工具與平臺層和大模型創(chuàng)意與探索社區(qū)構(gòu)成
在拓寬場景覆蓋廣度之余,文心大模型也在加深產(chǎn)業(yè)應(yīng)用的深度。
面向業(yè)界,百度文心首發(fā)了兩個行業(yè)大模型:聯(lián)合國家電網(wǎng)發(fā)布能源電力大模型、聯(lián)合浦發(fā)銀行發(fā)布金融行業(yè)大模型,通過引入行業(yè)特色數(shù)據(jù)和知識,在電力、金融相關(guān)領(lǐng)域提升效果顯著。
今天的百度世界大會上,百度文心又推出一個關(guān)鍵領(lǐng)域的大模型——航天-百度·文心大模型。
這是世界上第一個航天領(lǐng)域的大模型,從航天的場景、數(shù)據(jù)和知識中融合進(jìn)行學(xué)習(xí),可以對航天數(shù)據(jù)進(jìn)行智能的采集、分析和理解,助力太空智能感知、規(guī)劃和控制。
近期,百度還推出文心大模型創(chuàng)意社區(qū)——文心·旸谷社區(qū),希望可以讓更多用戶零距離感受文心大模型的魅力和應(yīng)用創(chuàng)新潛力。
據(jù)介紹,百度正在嘗試通過大模型幫助提升素材和物料的生產(chǎn)效率、降低成本,探索文化創(chuàng)作、交互等場景的更多新玩法,更大限度地拓展藝術(shù)家及普羅大眾的創(chuàng)作空間。
《富春山居圖》的部分畫卷已經(jīng)毀于一場大火,我們無從知曉被燒毀的真跡樣貌。
人工智能也許并不能真正做到百分之百地還原殘畫,但它穿越時空,在古老文物與身處現(xiàn)代的我們之間搭起一座連接的橋。
借助大模型等最新的AI技術(shù),文物修復(fù)專家不再需要傾其畢生去掌握各個細(xì)分領(lǐng)域的技巧,便能提出更加多樣的修復(fù)方案。專家經(jīng)驗(yàn)與AI結(jié)合,將對書畫文物修復(fù)工作大有裨益,不僅助力還原遺失的傳統(tǒng)文化,也有助于推動基于中國文化藝術(shù)的數(shù)字內(nèi)容創(chuàng)新。
而讓廣大用戶參與“虛擬修復(fù)”《富春山居圖》之類的活動形式,或許能調(diào)動更多人的興趣,去了解這幅傳奇畫作背后的奇聞逸事和它承載的厚重的歷史,去引得更多人真切地祈愿,這兩幅身處兩地殘卷能早日合二為一。
當(dāng)越來越多不擅長繪畫的人用AI執(zhí)筆,繪出眼中所觀、心中所想,也許更多的奇思妙想將躍然紙上,藝術(shù)與生活的距離也將被進(jìn)一步拉近。
聯(lián)系客服