九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
行業(yè)洞察 | 萬(wàn)字長(zhǎng)文講透數(shù)字人與生成式AI未來(lái)的創(chuàng)造力和機(jī)遇
目錄

01. 引言
02. 主流數(shù)字人的技術(shù)原理和應(yīng)用

03. 數(shù)字人在商業(yè)領(lǐng)域的崛起

04. 生成式AI技術(shù)讓數(shù)字人“活”起來(lái)

05. 國(guó)內(nèi)數(shù)字人和生成式AI技術(shù)的發(fā)展現(xiàn)狀和機(jī)遇

06. 生成式AI技術(shù)何時(shí)走向成熟和規(guī)?;瘧?yīng)用


引言
數(shù)字人技術(shù)即將普及化的時(shí)代正在迅速來(lái)臨!

從前年開(kāi)始,很多品牌主紛紛啟用虛擬人作為品牌代言人。請(qǐng)明星不但要承擔(dān)過(guò)高的預(yù)算,還有隨時(shí)可能“塌房”的風(fēng)險(xiǎn),真人各種不可控的因素讓品牌們苦不堪言,于是他們只好轉(zhuǎn)投可以由自己百分百掌控的“數(shù)字人”。

而虛擬人爆火的同時(shí),數(shù)字人的另一種形態(tài)——數(shù)字分身也在蔚然成風(fēng)。這兩者的區(qū)別簡(jiǎn)單來(lái)說(shuō)就是“虛擬人”是完全虛構(gòu)的,直接由計(jì)算機(jī)生成的,而“數(shù)字分身”則是一個(gè)真實(shí)人物的數(shù)字孿生體。

倒映有聲為知名醫(yī)學(xué)專家陶勇醫(yī)生打造的AI數(shù)字分身

生成式AI技術(shù)作為一種利用深度學(xué)習(xí)模型從數(shù)據(jù)中學(xué)習(xí)并生成新的內(nèi)容的技術(shù),可以根據(jù)文本、圖像、音頻等輸入,生成各種類型的輸出,如3D模型、視頻、動(dòng)畫(huà)、音樂(lè)、詩(shī)歌等。生成式AI技術(shù)的進(jìn)步將為數(shù)字人提供了強(qiáng)大的支撐,使其能夠適應(yīng)不同的場(chǎng)景和需求,展現(xiàn)出無(wú)限的可能性。這也意味著人們?cè)诰€交流的形式將徹底發(fā)生改變。數(shù)字人栩栩如生的外觀,生動(dòng)的表情,再加上AI技術(shù)加持下具備“最強(qiáng)大腦”,會(huì)為我們營(yíng)造出逼真的互動(dòng)性。

元分身數(shù)字人直播產(chǎn)品

每個(gè)人可以隨便“生產(chǎn)”數(shù)字人,甚至擁有自己的數(shù)字孿生(兄弟姐妹)的夢(mèng)幻景象將成為現(xiàn)實(shí),一切都將只是時(shí)間問(wèn)題,甚至在可見(jiàn)的兩三年內(nèi)即可實(shí)現(xiàn)。
數(shù)字人目前最先進(jìn)的底層技術(shù)是什么樣?已經(jīng)在哪些商業(yè)場(chǎng)景和行業(yè)內(nèi)有成熟應(yīng)用?生成式AI將如何賦能數(shù)字人的發(fā)展?二者的交融會(huì)為元宇宙帶來(lái)哪些新的想象?
帶著這些問(wèn)題,我們采訪和調(diào)研了國(guó)內(nèi)6家代表性數(shù)字人服務(wù)商的創(chuàng)始團(tuán)隊(duì),他們分別是一知智能、倒映有聲、元境科技、拓元智慧、創(chuàng)想數(shù)維、宙予科技。本篇文章即是對(duì)訪談內(nèi)容的全面和體系化呈現(xiàn)。

主流數(shù)字人的技術(shù)原理和應(yīng)用

目前國(guó)內(nèi)的數(shù)字人技術(shù)廠商底層技術(shù)主要以NLP(Natural Language Processing自然語(yǔ)言處理)技術(shù)、多模態(tài)融合交互(不同形式的輸入組合(例如,語(yǔ)音、手勢(shì)、觸摸、凝視等)被稱為多模態(tài)交互模式,其目標(biāo)是向用戶提供與計(jì)算機(jī)進(jìn)行交互的多種選擇方式,以支持自然的用戶選擇。)和大模型(大模型又可以稱為Foundation Model(基石)模型,模型通過(guò)億級(jí)的語(yǔ)料或者圖像進(jìn)行知識(shí)抽取,學(xué)習(xí)進(jìn)而生產(chǎn)了億級(jí)參數(shù)的大模型。)、XR技術(shù)(Extended Reality擴(kuò)展現(xiàn)實(shí),是指通過(guò)計(jì)算機(jī)將真實(shí)與虛擬相結(jié)合,打造一個(gè)可人機(jī)交互的虛擬環(huán)境,這也是AR、VR、MR等多種技術(shù)的統(tǒng)稱。)這三種技術(shù)為底層技術(shù)依托打造數(shù)字人。

其中NLP技術(shù)以創(chuàng)始團(tuán)隊(duì)為浙江大學(xué)計(jì)算機(jī)學(xué)院人工智能研究所出身的一知智能、上市公司天娛數(shù)科戰(zhàn)略投資的專門(mén)做元宇宙虛擬人相關(guān)業(yè)務(wù)的科技營(yíng)銷公司元境科技兩家為典型代表。

一知智能

一知智能CTO李一夫在采訪中表示,一知智能創(chuàng)始團(tuán)隊(duì)一開(kāi)始就是研究NLP技術(shù)的,目前一知智能的智能客服等產(chǎn)品就是結(jié)合一知智能的NLP能力研發(fā)的。在持續(xù)探索商業(yè)化的過(guò)程中,一知智能研發(fā)團(tuán)隊(duì)也在積極關(guān)注和思考前沿技術(shù)的發(fā)展。

當(dāng)一知智能研發(fā)團(tuán)隊(duì)認(rèn)為多模態(tài)語(yǔ)音交互領(lǐng)域要想繼續(xù)往前發(fā)展的話,就需要一個(gè)語(yǔ)音和文本結(jié)合、仿真外觀形象和動(dòng)態(tài)視頻結(jié)合的模態(tài),因此便在兩年前便積極布局虛擬數(shù)字人,往多模態(tài)交互、多模態(tài)大模型的方向發(fā)展。
△一知智能技術(shù)圖譜

一知智能CTO李一夫向非凡產(chǎn)研記者介紹,與同行業(yè)產(chǎn)品對(duì)比中,尤其是在真人驅(qū)動(dòng)以及口唇同步效果方面,一知智能的數(shù)字人在行業(yè)中應(yīng)該是處于遙遙領(lǐng)先的狀態(tài)。尤其在技術(shù)優(yōu)勢(shì)方面,由于一知智能過(guò)去幾年積累了大量的語(yǔ)料,迭代出領(lǐng)先的消費(fèi)行業(yè)語(yǔ)音與語(yǔ)義相關(guān)的模型,結(jié)合自身在多模塊交互方面的研究沉淀,未來(lái)一知智能將會(huì)在數(shù)字人的基礎(chǔ)上疊加交互的部分,從而擴(kuò)大技術(shù)方面的競(jìng)爭(zhēng)優(yōu)勢(shì)。

另一方面,一知智能過(guò)去在消費(fèi)領(lǐng)域積累的客戶、業(yè)務(wù)優(yōu)勢(shì),將會(huì)使一知智能的數(shù)字人在幫助客戶找PMF的應(yīng)用中取得更大的競(jìng)爭(zhēng)力。

元境科技

元境科技很早之前就開(kāi)始布局NLP技術(shù)和應(yīng)用,NLP核心的語(yǔ)義理解,預(yù)訓(xùn)練多模態(tài)大模型、NLP 算法集、NLP開(kāi)發(fā)套件等已經(jīng)集成到了元享智能云平臺(tái),具備企業(yè)級(jí)的落地實(shí)力。元境科技創(chuàng)始人王智武表示,元境在做就是通過(guò)元境自身的研發(fā)實(shí)力,降低其他企業(yè)在NLP及其他尖端術(shù)在應(yīng)用層的使用門(mén)檻。

△元享智能云平臺(tái)界面

元境科技的產(chǎn)品體系為1+X,其中“1”指元境科技自主研發(fā)的產(chǎn)品平臺(tái)“元享”,通過(guò)這個(gè)平臺(tái)元境科技將持續(xù)架設(shè)很多產(chǎn)品,聚焦垂直賽道和細(xì)分領(lǐng)域,同時(shí)提供專業(yè)產(chǎn)品服務(wù)和集成服務(wù),簡(jiǎn)化和降低技術(shù)的應(yīng)用門(mén)檻。元境科技目前的市場(chǎng)定位、探索主要聚焦在如何把一些最新自主訓(xùn)練技術(shù)、自主研發(fā)技術(shù)整合投放個(gè)一些垂直行業(yè)的應(yīng)用場(chǎng)景。相比通用型產(chǎn)品,元境科技未來(lái)聚焦的方向?qū)⒁源怪睉?yīng)用場(chǎng)景為主。

倒映有聲

倒映有聲成立四年多以來(lái),則一直聚焦在多模態(tài)的驅(qū)動(dòng)和生成技術(shù)。創(chuàng)始人兼CEO肖朔介紹說(shuō),倒映有聲把文本、聲音和圖像,以及數(shù)字人相關(guān)的動(dòng)作驅(qū)動(dòng)幾個(gè)環(huán)節(jié)整合到一起,形成“多模態(tài)的神經(jīng)渲染引擎”。目前,倒映有聲主要服務(wù)B端客戶場(chǎng)景,提供AI數(shù)字人技術(shù)解決方案、可視化的操作界面、以及直接調(diào)取API技術(shù)接口,幫助客戶去做數(shù)字人音頻和視頻內(nèi)容生產(chǎn),最終實(shí)現(xiàn)解放真人勞動(dòng)力、降本增效的目的。

在倒映有聲創(chuàng)始人兼CEO肖朔看來(lái),目前的技術(shù)流派可以分為兩種:第一種是基于傳統(tǒng)的3D建模方式,用海外比較成熟的UE或unity的引擎來(lái)進(jìn)行渲染,這套方案在游戲或者影視當(dāng)中應(yīng)用較多,現(xiàn)在也有很多優(yōu)秀的技術(shù)公司把它應(yīng)用在了數(shù)字人或元宇宙場(chǎng)景,也同樣取得了不錯(cuò)的應(yīng)用效果。而倒映有聲采用的是另外一套技術(shù)方案,不需要做傳統(tǒng)的3D建模,能夠節(jié)約大量的人力成本和時(shí)間成本,以及不需要再借用海外壟斷性質(zhì)的渲染引擎,因此倒映有聲可以實(shí)現(xiàn)用更低的成本和更標(biāo)準(zhǔn)化的模式,在云端快速地完成與數(shù)字人相關(guān)的多模態(tài)內(nèi)容生產(chǎn)。


拓元智慧

另一家人工智能公司拓元智慧則致力于運(yùn)用自研多模態(tài)大模型、認(rèn)知推理、因果模型、心智模型等前沿AI技術(shù),為客戶核心提供內(nèi)容生成和虛實(shí)交互解決方案。目前已經(jīng)在真人數(shù)字分身、AI協(xié)同創(chuàng)作、企業(yè)數(shù)智服務(wù)等領(lǐng)域形成標(biāo)化產(chǎn)品,服務(wù)客戶百余家。拓元智慧聯(lián)合創(chuàng)始人兼元分身平臺(tái)總經(jīng)理黃偉鵬向非凡產(chǎn)研介紹,在應(yīng)用落地方面,拓元智慧主要關(guān)注以認(rèn)知AI為核心的AGI領(lǐng)域的幾個(gè)主要方向,包括文案和圖像視頻生成、個(gè)性化交互及自主規(guī)劃型AI大腦等。

拓元智慧多模態(tài)認(rèn)知AI平臺(tái)示意圖

基團(tuán)隊(duì)的多模態(tài)AIGC與互動(dòng)技術(shù),元分身平臺(tái)可以打造媲美真人的AI數(shù)智人,應(yīng)用于視頻合成、直播、互動(dòng)等場(chǎng)景,為客戶提供數(shù)智人定制、視頻制作服務(wù)平臺(tái)、直播服務(wù)平臺(tái)、個(gè)性化交互等服務(wù)。其中,視頻創(chuàng)作及合成應(yīng)用適合教育、醫(yī)學(xué)、科技、金融、企事業(yè)等泛內(nèi)容傳播,直播應(yīng)用適用于本地生活商家、品牌店鋪、私域24小時(shí)直播門(mén)店等場(chǎng)景,而交互數(shù)字人則適用于售前售后客服和專家型咨詢陪伴等場(chǎng)景。

創(chuàng)想數(shù)維

與其他幾家不同的是,創(chuàng)想數(shù)維目前正在開(kāi)發(fā)的是XR技術(shù)(擴(kuò)展現(xiàn)實(shí)技術(shù))。與傳統(tǒng)技術(shù)如綠幕相比,XR技術(shù)在畫(huà)面效果和操作便利性等方面具有更大的優(yōu)勢(shì)。創(chuàng)想數(shù)維CEO吳未的目標(biāo)是將XR技術(shù)小型化并推廣到其他數(shù)字內(nèi)容生產(chǎn)領(lǐng)域,例如企業(yè)活動(dòng)、綜藝、直播和短視頻等,讓更多人受益。
創(chuàng)想數(shù)維業(yè)務(wù)范圍

創(chuàng)想數(shù)維的核心技術(shù)特點(diǎn)包括:首先,具備優(yōu)秀的自出研發(fā)和生產(chǎn)硬件設(shè)備的能力,且成本相對(duì)較低;其次,擁有一個(gè)核心的、平臺(tái)級(jí)別的軟件,包括渲染服務(wù)器和軟件,這也是創(chuàng)想數(shù)維技術(shù)的一個(gè)核心組成部分。除此之外,創(chuàng)想數(shù)維正在開(kāi)發(fā)利用AIGC技術(shù)快速生成3D場(chǎng)景和動(dòng)畫(huà)等算法和工具。

宙予科技

宙予科技是生成式AI驅(qū)動(dòng)的空間化電商全案服務(wù)商。去年宙予科技開(kāi)發(fā)了618京東元宇宙電商項(xiàng)目。作為全球首個(gè)元宇宙電商項(xiàng)目,在轉(zhuǎn)化率等核心指標(biāo),達(dá)到傳統(tǒng)電商十倍之多,實(shí)現(xiàn)了3D互聯(lián)網(wǎng)場(chǎng)景營(yíng)銷轉(zhuǎn)化效果的重大突破。目前宙予科技正在進(jìn)行5000萬(wàn)人民幣或等值美元的A輪融資。創(chuàng)始人朱峰是北京大學(xué)本碩,從物理轉(zhuǎn)修電影導(dǎo)演/文化產(chǎn)業(yè)。宙予合伙人團(tuán)隊(duì)由四位相識(shí)20年的發(fā)小組成,是北京四中、北京大學(xué)的高中/大學(xué)/碩博士同年級(jí)同學(xué),包括兩位電商老兵和兩位元宇宙渲染引擎專家,是空間化元宇宙電商創(chuàng)業(yè)的最優(yōu)搭配。

宙予科技AI虛擬主播

“AIGC”全稱為“Artificial Inteligence Generated Content 人工智能生成內(nèi)容”,中國(guó)信通院發(fā)布的《人工智能生成內(nèi)容(AIGC)白皮書(shū)》認(rèn)為,目前關(guān)于 AIGC 的概念并沒(méi)有統(tǒng)一界定,國(guó)內(nèi)產(chǎn)學(xué)研界的理解是“繼專業(yè)生成內(nèi)容(Professional Generated Content,PGC)和用戶生成內(nèi)容(User Generated Content UGC)之后,利用人工智能技術(shù)自動(dòng)生成內(nèi)容的新型生產(chǎn)方式”。維基百科給出的解釋則是“人工智能合成媒體(AI-generated Media 或 Synthetic Media)”,指“通過(guò)人工智能算法對(duì)數(shù)據(jù)或媒體進(jìn)行生產(chǎn)、操控和修改的統(tǒng)稱”。

數(shù)字人在商業(yè)領(lǐng)域的崛起
隨著數(shù)字人技術(shù)的不斷成熟,國(guó)內(nèi)數(shù)字人廠商也都積極探索商業(yè)化應(yīng)用場(chǎng)景,而且都有不錯(cuò)表現(xiàn)。本章節(jié)我們將為大家介紹數(shù)字人的主流應(yīng)用場(chǎng)景、主要落地行業(yè)、C端用戶變現(xiàn)場(chǎng)景。

1、數(shù)字人的三種主流應(yīng)用場(chǎng)景

目前數(shù)字人主要有三大應(yīng)用場(chǎng)景。

第一個(gè)是圍繞類流媒體的播報(bào)場(chǎng)景。這類場(chǎng)景的人員播講內(nèi)容和模式通常都比較固定,不需要太復(fù)雜的情感演繹,因此這類重復(fù)的勞動(dòng)力很容易用AIGC的方式來(lái)代替。倒映有聲創(chuàng)始人兼CEO肖朔介紹,他們已經(jīng)在融媒體新聞播報(bào)、教育培訓(xùn)、醫(yī)療科普、金融、泛娛樂(lè)等場(chǎng)景成功應(yīng)用數(shù)字人。

第二類是對(duì)時(shí)效性要求比較高的,比如過(guò)往一些行業(yè)的視頻節(jié)目?jī)?nèi)容從完成初稿到節(jié)目播出可能需要至少花5-6個(gè)小時(shí),期間還要經(jīng)歷審核校對(duì)等多個(gè)復(fù)雜流程,并且人力在這個(gè)過(guò)程中也有很多不可為的點(diǎn),必須一個(gè)新聞主播,每天最多可能只能錄10-20條。

△倒映有聲數(shù)字人分身內(nèi)容創(chuàng)作平臺(tái)

依托倒映有聲的融媒體AI數(shù)字人技術(shù)解決方案,只需10分鐘有效音畫(huà)數(shù)據(jù)采集,就可以打造1個(gè)主播的AI數(shù)字分身。在倒映有聲旗下的數(shù)字分身內(nèi)容創(chuàng)作平臺(tái)上,只需要輸入文字,就可以一鍵生成音頻和視頻。AI主播/AI數(shù)字人可以24小時(shí)不間斷進(jìn)行內(nèi)容生產(chǎn)和播報(bào)。這也數(shù)字人的一個(gè)極具代表性的應(yīng)用場(chǎng)景。

拓元智慧的數(shù)字人除了可以還原主播真人的外形、表情、動(dòng)作和聲音,還支持多語(yǔ)種功能。無(wú)論在視覺(jué)效果或是語(yǔ)音語(yǔ)調(diào)上,拓元智慧數(shù)字人已具有超過(guò)95%的擬真度,整體表現(xiàn)與真人無(wú)異甚至超越真人主播。真正實(shí)現(xiàn)一個(gè)運(yùn)營(yíng)頂一個(gè)團(tuán)隊(duì),孵化并管理多個(gè)IP,極大地降低制作成本,10倍以上提高效率。

第三種是短視頻、直播帶貨這樣的娛樂(lè)場(chǎng)景。數(shù)字人能為小B或者大C類用戶提供低成本的代替他們的人工在長(zhǎng)尾的時(shí)間段去進(jìn)行內(nèi)容的持續(xù)化輸出。拓元智慧數(shù)字人直播產(chǎn)品,可以隨時(shí)代替真人主播出鏡,通過(guò)AI自動(dòng)編排話術(shù)模塊,搭載智能對(duì)話問(wèn)答系統(tǒng),實(shí)現(xiàn)7*24小時(shí)直播,輕松獲得閑時(shí)流量收益。

2、數(shù)字人的主要落地行業(yè)
元境科技創(chuàng)始人王智武表示數(shù)字人在以下幾大賽道有天然優(yōu)勢(shì)。第一個(gè)是直播。比如在娛樂(lè)直播方面,娛樂(lè)直播通常需要主播具備很多的才藝,而生成式AI技術(shù)應(yīng)用到數(shù)字人后,數(shù)字人相當(dāng)于自帶才藝了,并且AIGC技術(shù)還在不斷迭代,生數(shù)據(jù)的效果越來(lái)越好,在這方面會(huì)很有潛力。

另一點(diǎn)就是虛擬人數(shù)字人可以24小時(shí)不間斷直播、和個(gè)性化定制,能夠聚焦更多人群,同時(shí)可以通過(guò)技術(shù)手段進(jìn)行批量生產(chǎn),橫向和縱向擴(kuò)展性很強(qiáng),現(xiàn)在很多企業(yè)和團(tuán)隊(duì)就在應(yīng)用我們的元享平臺(tái)的智播模塊進(jìn)行直播,效果很不錯(cuò),并且虛擬人數(shù)字人的直播模式是批量可復(fù)制的,因此一旦能成功,便會(huì)給企業(yè)降本增效帶來(lái)很明顯的變化。而且這個(gè)賽道的核心競(jìng)爭(zhēng)優(yōu)勢(shì)不是技術(shù),而是對(duì)業(yè)務(wù)和場(chǎng)景的編排能力。

第二個(gè)賽道是AI虛擬人教育。目前很多高校都有在這方面加強(qiáng)投入的意愿。以元境科技目前己上線的“元趣”產(chǎn)品為例,它可以基于真人圖像深度學(xué)習(xí)然后生成2.5D虛擬人,然后只需要輸入文本或者生成文本,它就能夠按照文本開(kāi)始說(shuō)話,而且不需要真人去驅(qū)動(dòng)。這個(gè)技術(shù)更可以規(guī)?;瘧?yīng)用在老師教學(xué)場(chǎng)景中。
第三個(gè)賽道是文旅行業(yè)。全國(guó)各地的旅游景點(diǎn)圍繞智慧導(dǎo)游、智慧伴游、數(shù)字博物館等場(chǎng)景都有很強(qiáng)的需求。元境科技也在加緊這方面的布局。
此外還有律所、保險(xiǎn)和To G行業(yè)也有大量需求。目前元境科技已經(jīng)在教育、文旅行業(yè),還有跟一些大的消費(fèi)品牌、新能源汽車等都有成功落地經(jīng)驗(yàn)。
創(chuàng)想數(shù)維CEO吳未告訴非凡產(chǎn)研,除了文旅行業(yè),創(chuàng)想數(shù)維還跟MCN機(jī)構(gòu)和一些agency共同有很多應(yīng)用和探索。而且體驗(yàn)過(guò)的客戶都反饋很好,能有效降低他們制作內(nèi)容的時(shí)間和預(yù)算成本。
宙予科技將自己定位成“幫助電商平臺(tái)和消費(fèi)品牌邁入元宇宙的基礎(chǔ)服務(wù)商”,宙予科技創(chuàng)始人朱峰認(rèn)為,品牌不一定需要元宇宙,但一定需要流量,而元宇宙能夠?yàn)槠放茙?lái)新的流量。而電商平臺(tái)里本身就有很多流量。因此宙予科技的打法非常獨(dú)特,他們把元宇宙直接放進(jìn)流量核心,也就是電商APP里面。以此為基點(diǎn),形成“人”“貨”“場(chǎng)”三方面的服務(wù)。
宙予科技打造的24小時(shí)AI虛擬主播,一方面可以很好地進(jìn)行產(chǎn)品的介紹,另一方面可以回答消費(fèi)者的問(wèn)題,未來(lái)虛擬主播的能量可以在“場(chǎng)”里面得到進(jìn)一步的釋放。
拓元智慧總經(jīng)理黃偉鵬則表示,除了新聞資訊類和醫(yī)學(xué)、教育、財(cái)會(huì)等泛知識(shí)類博主,企業(yè)售前售后服務(wù)、本地生活等領(lǐng)域也需要AI數(shù)字人的加持。拓元智慧從數(shù)智人視頻到直播的一站式創(chuàng)作,直擊傳統(tǒng)視頻和直播中效率低、成本高等痛點(diǎn),讓內(nèi)容創(chuàng)作者專注腳本創(chuàng)作及營(yíng)銷策略優(yōu)化,幫助個(gè)人和商家構(gòu)建全新的數(shù)智化運(yùn)營(yíng)模式,通過(guò)數(shù)字人大眾化解放生產(chǎn)力。
3、數(shù)字人的C端用戶變現(xiàn)場(chǎng)景
除了服務(wù)B端客戶之外,倒映有聲和元境科技還都有面向C端用戶的產(chǎn)品和服務(wù)。
對(duì)于同樣有制作數(shù)字人需求的C端用戶,倒映有聲提供了一個(gè)數(shù)字分身內(nèi)容創(chuàng)作平臺(tái),平臺(tái)上擁有豐富的通用型服務(wù)型數(shù)字人來(lái)支持C端用戶制作數(shù)字人。
元境可以則分別有“元享”和“元趣”兩個(gè)C端產(chǎn)品版本,分別是3D和2D產(chǎn)品形態(tài)。并且“元享”即是平臺(tái)又是產(chǎn)品,將來(lái)還會(huì)為C端開(kāi)放免費(fèi)捏臉系統(tǒng)?!霸ぁ蹦壳耙孕〕绦?yàn)橹鳎饕且豢钺槍?duì)方便轉(zhuǎn)播的2C用戶的免費(fèi)應(yīng)用。

創(chuàng)想數(shù)維也計(jì)劃推出一些針對(duì)C端用戶的產(chǎn)品和解決方案。例如快速?gòu)?D草圖生成3D場(chǎng)景,全面實(shí)現(xiàn)剪輯、調(diào)色和燈光等方面的 AI 自動(dòng)化,從而完全擺脫中之人或人為操作。

生成式AI技術(shù)讓數(shù)字人“活”起來(lái)

數(shù)字人雖然已經(jīng)誕生了很長(zhǎng)時(shí)間,但其長(zhǎng)期以來(lái)被吐槽最多的就是大部分?jǐn)?shù)字人都過(guò)于呆板,除了表情和姿勢(shì)過(guò)于僵硬之外,還完全沒(méi)法與用戶個(gè)性化,甚至實(shí)時(shí)互動(dòng)。一項(xiàng)數(shù)據(jù)表明,人和人之間55%的交流靠肢體語(yǔ)言,38%靠語(yǔ)調(diào),只有7%是靠語(yǔ)言。因此數(shù)字人的互動(dòng)能力對(duì)提升用戶體驗(yàn)非常重要。而隨著生成式AI(Generative AI)技術(shù)的爆發(fā),將會(huì)很好的賦能數(shù)字人,極大提升數(shù)字人的生動(dòng)力。

1、生成式AI技術(shù)是提升數(shù)字人交互能力的拐點(diǎn)

一知智能CTO李一夫認(rèn)為生成式AI技術(shù)是提示數(shù)字人交互能力的一個(gè)重要技術(shù)拐點(diǎn)。但目前面臨的主要問(wèn)題在于生成式AI通過(guò)大模型形成答案的速度還比較慢,而交互場(chǎng)景對(duì)于實(shí)時(shí)性的速度要求又非常高,所以當(dāng)前生成式AI還不能直接運(yùn)用到數(shù)字人的交互上,這個(gè)也是未來(lái)需要大模型去解決的問(wèn)題之一。目前一知智能在產(chǎn)品上也在研究如何提高接入大模型以及生成式AI的能力,大模型如果能在響應(yīng)速度上得到飛躍的提升,那數(shù)字人的發(fā)展將會(huì)迎來(lái)很大進(jìn)步。

元境科技創(chuàng)始人王智武認(rèn)為,目前行業(yè)內(nèi)的一些數(shù)字人交互能力還不夠強(qiáng)主要有以下幾個(gè)原因,首先因?yàn)檎Z(yǔ)料庫(kù)特別少,比如在10個(gè)人同時(shí)提問(wèn)一個(gè)問(wèn)題的場(chǎng)景中,AI產(chǎn)出的答案永遠(yuǎn)只有一個(gè),這樣給人的感覺(jué)就是新鮮感特別低,我們也是通過(guò)自建語(yǔ)料庫(kù)去改善重復(fù)度高的這個(gè)問(wèn)題。
其次,在智能問(wèn)答的應(yīng)用場(chǎng)景中,數(shù)字人的表情、神態(tài)、動(dòng)作都比較僵硬,給人很假的感覺(jué)。
第三,在聲音選擇上,虛擬人之前是沒(méi)有辦法去模擬情緒的。元境在這塊下了很大的研發(fā)力度,請(qǐng)很多的專家和大牛組成技術(shù)團(tuán)隊(duì),攻克數(shù)字人交互中的核心難點(diǎn),通過(guò)AIGC和預(yù)訓(xùn)練大模型以及龐大的動(dòng)作數(shù)據(jù)庫(kù)才實(shí)現(xiàn)了近乎真人的交互表現(xiàn)效果。
如果今后其他團(tuán)隊(duì)和公司想要提升數(shù)字人交互能力,可以嘗試自建語(yǔ)料庫(kù)和在大模型、AIGC這塊下功夫,實(shí)現(xiàn)百分之90的相似度是可以做到的,攻堅(jiān)到百分之百的相似度是行業(yè)內(nèi)所有人的共同目標(biāo)。
隨著生成式AI技術(shù)的進(jìn)步,尤其有了ChatGPT這樣的語(yǔ)言大模型,就能支撐數(shù)字人的回答變得多樣性且具備擬人語(yǔ)氣。另外生成式AI技術(shù)也將會(huì)讓數(shù)字人在聲音訓(xùn)練、表情模擬以及情緒表達(dá)上有很大的飛躍。比如過(guò)去以文本驅(qū)動(dòng)虛擬人嘴型的模式會(huì)讓發(fā)聲顯得僵硬,而現(xiàn)在要驅(qū)動(dòng)虛擬人很好表達(dá)情緒的話,則是會(huì)用audio2face技術(shù)用聲音驅(qū)動(dòng)唇形及面部表情,通過(guò)情緒的判斷及傳遞實(shí)現(xiàn)虛擬人的情緒表達(dá),虛擬人也因此給人感覺(jué)更逼真。

2、生成式AI技術(shù)如何賦能數(shù)字人

拓元智慧聯(lián)合創(chuàng)始人黃偉鵬介紹,目前元分身平臺(tái)的數(shù)字人已經(jīng)可以通過(guò)AIGC技術(shù)在短視頻、直播和一對(duì)一服務(wù)等場(chǎng)景中直接生成,并且可以與用戶進(jìn)行智能互動(dòng)。例如,在直播中,可以解析用戶的彈幕內(nèi)容并直接回答他們的問(wèn)題。在短視頻創(chuàng)作中,設(shè)有AI文案功能,幫助運(yùn)營(yíng)者生成文案或改寫(xiě)文案,極大減輕視頻工作者的創(chuàng)作壓力。

同時(shí),在互動(dòng)客服、業(yè)務(wù)引導(dǎo)等方面,元分身也可以實(shí)現(xiàn)實(shí)時(shí)的一對(duì)一驅(qū)動(dòng),將ASR轉(zhuǎn)化為NLP,進(jìn)而生成答案并合成語(yǔ)音,在前端輸出時(shí)還可以進(jìn)行面部表情、手勢(shì)等交互操作。通過(guò)這些技術(shù)優(yōu)化,可以明顯提示數(shù)字人的交互能力。

創(chuàng)想數(shù)維CEO吳未表示數(shù)字人制作流程一般包括設(shè)計(jì)、建模制作、驅(qū)動(dòng)和運(yùn)營(yíng)環(huán)節(jié)。在這個(gè)流程中,就可以應(yīng)用大量的人工智能算法和模型,來(lái)加快速度。同時(shí),生成式AI也能使數(shù)字人的響應(yīng)更加智能化,更符合人類特性。舉例來(lái)說(shuō),以前數(shù)字人驅(qū)動(dòng)一般需要構(gòu)建知識(shí)圖譜,然后將其制作成語(yǔ)音庫(kù)和動(dòng)作庫(kù),只能回答知識(shí)圖譜范圍內(nèi)的問(wèn)題。但有了大語(yǔ)言模型,只需要組合其他組件,如文字轉(zhuǎn)語(yǔ)音、語(yǔ)音轉(zhuǎn)動(dòng)作、表情庫(kù)和動(dòng)作庫(kù),就能生成一個(gè)可以響應(yīng)任何問(wèn)題的智能化AI驅(qū)動(dòng)程序。因此,我們可以像搭樂(lè)高積木一樣,將各種人工智能組件拼接起來(lái),以更低的成本獲得更好的數(shù)字人驅(qū)動(dòng)效果。

宙予科技創(chuàng)始人朱峰表示數(shù)字人的交互一般指的是視覺(jué)、聽(tīng)覺(jué)和觸覺(jué)三方面。這三個(gè)方面目前都有不同的公司在做。而觸覺(jué)的提升還屬于超早期的階段,現(xiàn)階段暫時(shí)還沒(méi)有已經(jīng)能夠落地的方案出來(lái)。在視、聽(tīng)覺(jué)這兩塊,已經(jīng)有很大進(jìn)展。尤其在聽(tīng)覺(jué)方面,小冰、科大訊飛,阿里等企業(yè)都在努力克服TTS(Text To Speech)生成的語(yǔ)言的連貫性和情緒問(wèn)題。

目前數(shù)字人已經(jīng)都能很流暢平靜的表達(dá),但在聲音的抑揚(yáng)頓挫,音量變化方面仍然有很大提升空間。尤其是人類的情緒變化很多變,語(yǔ)言常常很難準(zhǔn)確表達(dá),如何精確培訓(xùn)數(shù)字人具備這一敏感度,將會(huì)有很大挑戰(zhàn)。

再說(shuō)圖像領(lǐng)域,目前一個(gè)趨勢(shì)是傳統(tǒng)計(jì)算機(jī)圖形學(xué)的動(dòng)搖甚至消亡。原來(lái)的計(jì)算機(jī)圖形圖像學(xué)指的是mesh和texture的體系,就是每一個(gè)電腦動(dòng)畫(huà)要先建出來(lái)模型,模型上面有蒙皮,然后兩個(gè)東西加在一起才有了傳統(tǒng)的模型。后來(lái)有了神經(jīng)網(wǎng)絡(luò)輻射場(chǎng)(Nerf),然后通過(guò)Nerf去做三維空間,從點(diǎn)、云和三角片狀的一些非常零散的呈現(xiàn)面,去表現(xiàn)一個(gè)非常真實(shí)的立體空間的折射反射現(xiàn)象。它雖然和以往的三維模型加材質(zhì)工作流不完全兼容,但在UE里面已經(jīng)實(shí)現(xiàn)將Nerf模型直接放入傳統(tǒng)工作流形成的環(huán)境中直接渲染的案例了,不做動(dòng)畫(huà)的話,效果甚至不錯(cuò)。

所以最近的一個(gè)技術(shù)熱點(diǎn)就是把Nerf本身的呈現(xiàn)方式還原成點(diǎn)云,然后再進(jìn)一步地還原成傳統(tǒng)的mesh和texture去和它兼容,試著做動(dòng)畫(huà)的打通。這還是對(duì)于以往的流程的一種改良。但是目前過(guò)prompt就能實(shí)現(xiàn)文生圖的技術(shù),對(duì)于傳統(tǒng)流程非常大的顛覆性,意味著幾毫秒就能實(shí)時(shí)生成一堆圖。在現(xiàn)在 AGI技術(shù)大流行的前提之下,將來(lái)整個(gè)傳統(tǒng)三維的實(shí)時(shí)渲染工作流將可能全部被革新,這是未來(lái)的虛擬人可以走的三條路。

2、生成式AI將帶來(lái)數(shù)字人的交互場(chǎng)景創(chuàng)新

一旦數(shù)字人的交互能力有很大進(jìn)步之后,將會(huì)為下面幾個(gè)場(chǎng)景的用戶體驗(yàn)帶來(lái)很大的提升。

倒映有聲創(chuàng)始人兼CEO肖朔認(rèn)為,數(shù)字人交互能力落地后首先帶來(lái)改變的就是,可以解決游戲場(chǎng)景中NPC角色配音問(wèn)題,以及讓NPC擁有更豐富的互動(dòng)能力,產(chǎn)生不一樣的文本響應(yīng),尤其對(duì)于一些養(yǎng)成類游戲的用戶體驗(yàn)的提高將會(huì)帶來(lái)很大幫助。

第二類是對(duì)短視頻領(lǐng)域的AI直播帶貨場(chǎng)景將會(huì)有很大優(yōu)化。現(xiàn)在的AI數(shù)字人直播技術(shù)依然有很明顯的缺陷,比如說(shuō)虛擬主播手上不能拿商品,而且沒(méi)有真人主播那么及時(shí)的響應(yīng)速度,所以目前虛擬主播還很難替代真人。但如果虛擬主播的交互能力得到很大提升之后,再加上虛擬主播可以24小時(shí)在線,這將會(huì)為直播帶貨行業(yè)帶來(lái)革命性變化。

第三種是對(duì)一些功能性場(chǎng)景的體驗(yàn)和能力優(yōu)化。比如AI老師,AI券商分析師早期可能只能單純地做內(nèi)容輸出,后面交互技術(shù)提升了就能接入比如實(shí)時(shí)問(wèn)答系統(tǒng),可以及時(shí)回答用戶的專業(yè)問(wèn)題。后面他會(huì)接上一些。我們其實(shí)是叫做問(wèn)答系統(tǒng)。

但目前整個(gè)的渲染技術(shù),包括虛擬人的形象等還需要再去提升,因?yàn)榭蛻舳说捏w驗(yàn)非常重要。在做交互之前,第一步要先要把畫(huà)面呈現(xiàn)達(dá)到一定水平,再結(jié)合交互,這樣才能夠真正產(chǎn)生商業(yè)化的價(jià)值。尤其大品牌會(huì)要求虛擬人跟自己的品牌形象和品牌調(diào)性高度契合,所以對(duì)此要求會(huì)比較高。

國(guó)內(nèi)數(shù)字人和生成式AI技術(shù)的發(fā)展現(xiàn)狀和機(jī)遇

國(guó)內(nèi)外在數(shù)字人和生成式AI技術(shù)領(lǐng)域內(nèi)的差異顯而易見(jiàn),只有正視自身短處,才能找到前進(jìn)動(dòng)力和方向。采訪嘉賓們也分別為我們介紹了目前國(guó)內(nèi)在技術(shù)、商業(yè)化方面的短板在哪里。

1、數(shù)字人要克服的挑戰(zhàn)和難點(diǎn)

倒映有聲創(chuàng)始人兼CEO肖朔認(rèn)為,數(shù)字人的技術(shù)離天花板尚有很遠(yuǎn)的距離,雖然大家要面臨很多挑戰(zhàn),但也意味著大量的創(chuàng)業(yè)公司依然有很多機(jī)會(huì)窗口。他說(shuō),以3D數(shù)字人和2D數(shù)字人兩種技術(shù)解決方案為例, 3D數(shù)字人的技術(shù)能夠做到很高端精細(xì)的效果,但是財(cái)務(wù)成本、時(shí)間成本、人力成本都很高,那么,破局之道就是解決成本問(wèn)題。而對(duì)于同倒映有聲一樣深耕 2D 數(shù)字人技術(shù)解決方案的公司來(lái)說(shuō),核心競(jìng)爭(zhēng)力則是要在人物動(dòng)作的復(fù)雜度上不斷加強(qiáng),更擬真、更細(xì)化、更交互、更有情感,以及模態(tài)的更深融合,都是需要進(jìn)一步投入研發(fā)的。

創(chuàng)想數(shù)維CEO吳未認(rèn)為國(guó)內(nèi)數(shù)字人技術(shù)面臨以下幾大挑戰(zhàn)。首先,國(guó)內(nèi)企業(yè)需要跟上研發(fā)的節(jié)奏,因?yàn)楝F(xiàn)在很多核心組件都需要在國(guó)外廠商那里投入資源去研發(fā)。國(guó)內(nèi)的替代速度相對(duì)較慢,所以行業(yè)需要更好、更便宜的組成部件來(lái)降低整體解決方案的成本,同時(shí)周邊生態(tài)也要能跟上。

其次,需要降低流量和算力成本。這對(duì)于行業(yè)的擴(kuò)張非常重要。如果有大公司愿意牽頭,建立流量和算力平臺(tái),將有助于其他內(nèi)容創(chuàng)意者和創(chuàng)意團(tuán)隊(duì)更好地拓展業(yè)務(wù)。最后,客戶了解和認(rèn)識(shí)新技術(shù)的速度和影響力也都需要加強(qiáng),這些新技術(shù)能為因?yàn)閿?shù)字內(nèi)容創(chuàng)意行業(yè)提供有效的生產(chǎn)力。但距離盡快普及還有很長(zhǎng)的客戶教育之路要走。

2、國(guó)內(nèi)生成式AI技術(shù)的挑戰(zhàn)和難點(diǎn)

1)商業(yè)模式層面

一知智能CTO李一夫認(rèn)為,國(guó)內(nèi)的生成式AI在技術(shù)方面很多還是依賴GPT、diffusion等API或開(kāi)源框架。在商業(yè)化方面,整個(gè)生成式AI中,大模型可分為“底層”跟“應(yīng)用層”兩層,其中“底層”又包含大模型的“模型層”等,而目前底層模型仍存在非常大的難點(diǎn)需要去攻克,因此關(guān)于商業(yè)化的討論我們更多的都是針對(duì)應(yīng)用層的公司。

拓元智慧聯(lián)創(chuàng)兼元分身平臺(tái)總經(jīng)理黃偉鵬表示,這兩年處于AI技術(shù)發(fā)展的拐點(diǎn),去年11月到現(xiàn)在,全球已經(jīng)公布總計(jì)超過(guò)20個(gè)大模型產(chǎn)品,讓科技圈都看到了希望,除了前期需要大量的創(chuàng)新實(shí)踐,去探索前沿技術(shù)的商業(yè)可行性,資金支持也是必不可少的。

目前國(guó)內(nèi)應(yīng)用層的創(chuàng)業(yè)者公司主要有下面兩類,一種是自身有一定技術(shù)背景,然后依賴國(guó)外廠商API的公司,他們?cè)诖怪被P脱邪l(fā)的過(guò)程中,可能遇到的挑戰(zhàn)是大模型開(kāi)放API后,固有技術(shù)壁壘的競(jìng)爭(zhēng)優(yōu)勢(shì)會(huì)受到影響,同時(shí)也會(huì)面臨訓(xùn)練成本高的問(wèn)題。另外一種企業(yè)可能原來(lái)是在做SaaS工具且具備業(yè)務(wù)know-how的公司,他們會(huì)在原有的產(chǎn)品上疊加AIGC的能力,但由于缺乏自主研發(fā)的基因,因此即便預(yù)算足夠聘請(qǐng)算法工程師,但在對(duì)生成式AI的理解以及產(chǎn)品的落地方面往往會(huì)受限,這類廠商對(duì)商業(yè)化以及大廠提供生成式AI的依賴度較高,而部分連業(yè)務(wù)knowhow也缺乏的公司,更是面臨很高的創(chuàng)業(yè)成本。

2)技術(shù)層面

拓元智慧聯(lián)創(chuàng)兼元分身平臺(tái)總經(jīng)理黃偉鵬表示,最大的挑戰(zhàn)是在數(shù)據(jù)量和算力上。在數(shù)據(jù)量上,優(yōu)質(zhì)的專門(mén)數(shù)據(jù)和資金支持研發(fā),兩者缺一不可。而在算力上,像A100大算力顯卡供應(yīng),在國(guó)內(nèi)仍處于卡脖子狀態(tài),所以國(guó)內(nèi)的AIGC技術(shù)會(huì)和海外研發(fā)造成一定的差距。

創(chuàng)想數(shù)維CEO吳未認(rèn)為,首先,發(fā)展生成式AI技術(shù)的必要條件之一就是要有優(yōu)質(zhì)的數(shù)據(jù),而不是簡(jiǎn)單的數(shù)據(jù)。然而,國(guó)內(nèi)很缺乏優(yōu)質(zhì)的結(jié)構(gòu)化數(shù)據(jù),這是我們面臨的首要挑戰(zhàn)之一。其次,發(fā)展AI技術(shù)需要長(zhǎng)期投入研發(fā)資金,這可能需要5-10年的時(shí)間,而且在此之前很大概率并不賺錢。中國(guó)資本、政策以及企業(yè)家是否有足夠的定力看到這一點(diǎn),并認(rèn)識(shí)到其發(fā)展的必要性將是很大的考驗(yàn)。

元境科技創(chuàng)始人王智武強(qiáng)調(diào),國(guó)內(nèi)的整個(gè)數(shù)據(jù)壁壘比較高,而且在國(guó)內(nèi)的整個(gè)的大環(huán)境下,受開(kāi)發(fā)環(huán)境及政策的影響,數(shù)據(jù)的共享很難實(shí)現(xiàn),高質(zhì)量的數(shù)據(jù)也難以獲取。相比之下,國(guó)外的開(kāi)發(fā)端口比較豐富,高質(zhì)量數(shù)據(jù)的獲取也相對(duì)便捷。第三個(gè)問(wèn)題是國(guó)外的開(kāi)源社區(qū)很多,國(guó)內(nèi)的開(kāi)源社區(qū)特別少。第四個(gè)問(wèn)題在算力方面,國(guó)內(nèi)算力受限比較嚴(yán)重,一方面在硬件比如顯卡,國(guó)內(nèi)外顯卡性能差距較大,另一方面在人才,國(guó)外在這方面的人才相對(duì)較多,相比之下國(guó)內(nèi)相對(duì)匱乏且僅在大廠商內(nèi),這些綜合因素都造成了國(guó)內(nèi)目前在AI領(lǐng)域相對(duì)落后等一些問(wèn)題。
3)人才層面
行業(yè)人才缺乏甚至斷檔也是目前整個(gè)行業(yè)面臨的一大難題。雖然這個(gè)賽道今年才開(kāi)始爆火,但其實(shí)已經(jīng)存在了十多年,只不過(guò)一直都處于比較邊緣地帶。因此人才梯度有嚴(yán)重缺失,會(huì)造成短期一兩年內(nèi)人才斷檔。再加上大企業(yè)招人更有優(yōu)勢(shì),因此這對(duì)獨(dú)立廠商搭建團(tuán)隊(duì)將會(huì)帶來(lái)一定影響。

3、國(guó)內(nèi)外行業(yè)生態(tài)差距對(duì)比

對(duì)于國(guó)內(nèi)外差距對(duì)比,倒映有聲創(chuàng)始人兼CEO肖朔概括了三個(gè)值得關(guān)注的現(xiàn)象。首先,是否有健全的開(kāi)源生態(tài)。鑒于海內(nèi)外迥然不同的競(jìng)爭(zhēng)格局和商業(yè)模式,國(guó)外開(kāi)源生態(tài)更利于新興企業(yè)的技術(shù)崛起。其次,是否有付費(fèi)習(xí)慣和付費(fèi)能力。海外商業(yè)環(huán)境下,即使一家AI創(chuàng)業(yè)公司只做了一個(gè)簡(jiǎn)單的模塊,依然可以產(chǎn)生盈利,但是國(guó)內(nèi)卻很難,會(huì)快速地陷入到“價(jià)格戰(zhàn)”的競(jìng)爭(zhēng)環(huán)境中,所以國(guó)內(nèi)AI創(chuàng)業(yè)企業(yè)的生存難度遠(yuǎn)高于國(guó)外。
第三,是否實(shí)現(xiàn)工具化的應(yīng)用。從技術(shù)角度來(lái)說(shuō),海外目前是全面開(kāi)花,工具化應(yīng)用也落地更顯著。比如,基于GPT的Jasper.ai,NotionAI的營(yíng)銷軟件、基于語(yǔ)音識(shí)別的Descript等,都已經(jīng)走出了成熟的商業(yè)模式。
宙予科技創(chuàng)始人朱峰表示,目前國(guó)際上圖形學(xué)的生成式AI技術(shù)的頂峰是生成3D模型,但目前國(guó)內(nèi)外都還沒(méi)有好的解決方案,依然在嘗試通過(guò)數(shù)據(jù)集把生成式3D模型能訓(xùn)練出來(lái)。而且這需要投入大量的金錢和人力成本。目前已經(jīng)成熟的技術(shù)里,StableDiffusion是開(kāi)源的,而Midjourney是閉源的,并且Midjourney對(duì)于圖像的生成已經(jīng)到了能生成非常精致的圖片的程度,尤其第五代版本是以超寫(xiě)實(shí)的,照片級(jí)的合成為主方向發(fā)展的。但是國(guó)內(nèi)的技術(shù)能力還達(dá)不到這個(gè)程度,目前頂多在第四代水平。大語(yǔ)言模型體現(xiàn)出了“涌現(xiàn)能力”的特征,這是一種“追趕效應(yīng)”的體現(xiàn),領(lǐng)先者進(jìn)化的速度和加速度都會(huì)大于落后者。現(xiàn)實(shí)世界里差半年時(shí)間,在人工智能的世界里可能意味著差十年,要想跟上對(duì)方步伐真的很困難。所以在這個(gè)前提之下,國(guó)內(nèi)的AI圖形生成技術(shù)相比海外差距還是蠻大的。
在其他領(lǐng)域,比如交互領(lǐng)域商業(yè)化有一個(gè)非常大的難題,就是廠商對(duì)于生成答案的控制和審核的要求,國(guó)內(nèi)外各有側(cè)重。漢語(yǔ)比較難的地方在于其本身的高維度語(yǔ)義呈現(xiàn),可以隱藏在卷曲的語(yǔ)義里面。這就對(duì)每一個(gè)公司的審核能力要求很高。如果某一家公司的審核能力不夠強(qiáng),其他公司調(diào)用了他們的接口,那么就很難界定責(zé)任方。意味著國(guó)內(nèi)做生成式AI的公司在商業(yè)化過(guò)程中要遇到一個(gè)重要挑戰(zhàn),就是要為自己說(shuō)的話負(fù)責(zé),但這個(gè)負(fù)責(zé)該如何體現(xiàn),獎(jiǎng)懲機(jī)制如何平衡等都將是很大的難題。


生成式AI技術(shù)何時(shí)走向成熟和規(guī)?;瘧?yīng)用

元境科技創(chuàng)始人王智武認(rèn)為生成式AI還有很長(zhǎng)的路要走。目前的ChatGPT3.5甚至4相對(duì)來(lái)說(shuō)仍只處于10%- 20%的一個(gè)基礎(chǔ)階段,因?yàn)槲磥?lái)的世界不僅僅是文本,一定是多模態(tài),這意味著未來(lái)的生成式人工智能需要能夠處理多種數(shù)據(jù)類型,例如圖像、音頻、視頻等,成為各種各樣的形式互相穿插的技術(shù)形態(tài)。因此雖然前期會(huì)有爆發(fā)式的增長(zhǎng),但后面需要落實(shí)到技術(shù)沉淀中,相對(duì)增長(zhǎng)也會(huì)變得緩慢,但越緩慢代表越來(lái)越成熟。

另外,隨著AI技術(shù)的不斷發(fā)展,雖然一些傳統(tǒng)的崗位可能會(huì)被淘汰,但同時(shí)又會(huì)催生出很多元宇宙中的崗位。在元宇宙的世界里面,比如基礎(chǔ)的程序員會(huì)被淘汰,但可能會(huì)催生出比如調(diào)試員、調(diào)優(yōu)員之類的崗位,除此之外,還會(huì)衍生出元宇宙設(shè)計(jì)師、建筑師、VR/AR工程師等職業(yè),就業(yè)種類也許會(huì)變得更多。所以我們需要更加積極地適應(yīng)這種變化,發(fā)展和運(yùn)用技術(shù)。另外在基礎(chǔ)的一些文本生成方面,文案策劃、新媒體運(yùn)營(yíng)這樣的崗位不一定會(huì)被代替,但生產(chǎn)模式可能會(huì)隨著AI技術(shù)而升級(jí)。還有就是中之人、演員行業(yè),也會(huì)隨著AI替換技術(shù)的成熟發(fā)生很大變化,比如在元宇宙世界中進(jìn)行表演,將會(huì)讓藝術(shù)變得更加天馬行空,想象力會(huì)被徹底釋放。

拓元智慧聯(lián)合創(chuàng)始人黃偉鵬表示,中國(guó)有數(shù)以千萬(wàn)計(jì)的中小型商家,在直播帶貨的投入預(yù)算上相對(duì)有限,且能帶動(dòng)直播及營(yíng)銷效果的主播也比較稀缺,導(dǎo)致供需出現(xiàn)了嚴(yán)重的失衡和脫鉤現(xiàn)象。在這種情況下,數(shù)字人、AIGC的相關(guān)應(yīng)用在直播行業(yè)是非常有前景的。區(qū)別于傳統(tǒng)真人直播、3D虛擬人直播方案,元分身平臺(tái)打造了具有互動(dòng)體驗(yàn)更真實(shí)、性價(jià)比更高、使用門(mén)檻更低、業(yè)務(wù)搭建更快捷等優(yōu)勢(shì)的數(shù)智人直播方案。在團(tuán)隊(duì)自研的多模態(tài)AIGC及互動(dòng)平臺(tái)的技術(shù)加持下,具備“真人形象和聲音+動(dòng)作多變靈動(dòng)+自動(dòng)問(wèn)答、智能互動(dòng)”能力的AI數(shù)智人主播,對(duì)比真人直播GMV超3倍,有效幫助企業(yè)打造可靠的7x24小時(shí)的超級(jí)直播間。

宙予科技創(chuàng)始人朱峰的觀點(diǎn)是,以ChatGPT為代表的生成式AI技術(shù),大都正在經(jīng)歷落地化應(yīng)用前的最后一站,有了每一個(gè)行業(yè)準(zhǔn)確的知識(shí)再進(jìn)行進(jìn)一步的優(yōu)化之后,插件就會(huì)變得越來(lái)越多。Plugin Store也就即將是未來(lái)的App Store,隨著這個(gè)應(yīng)用商店的不斷成熟,未來(lái)還會(huì)涌現(xiàn)出更多的基于AI的APP,這將是下一個(gè)時(shí)代的真實(shí)的落地應(yīng)用的一個(gè)大前提,帶來(lái)的變革和影響會(huì)是非常劇烈的。

創(chuàng)想數(shù)維CEO吳未認(rèn)為,隨著生成式AI技術(shù)的不斷成熟,在3到5年內(nèi),單個(gè)崗位的工作效率可能會(huì)提高5到10倍。這是第四次工業(yè)革命的開(kāi)始,從今年開(kāi)始就是生成式AI的時(shí)代,它將先從以服務(wù)類、文娛、內(nèi)容產(chǎn)業(yè)為主的第三產(chǎn)業(yè)開(kāi)始普及。當(dāng)AIGC真正深入到企業(yè)的生產(chǎn)環(huán)節(jié)中,企業(yè)的人均產(chǎn)值會(huì)大幅提升。作為企業(yè)家,一定要有清醒的認(rèn)識(shí),未來(lái)可能會(huì)出現(xiàn)競(jìng)爭(zhēng)對(duì)手,他們的人均產(chǎn)值是你的3倍甚至5倍。如果不能跟上這個(gè)趨勢(shì),就會(huì)被淘汰。因此,現(xiàn)在就要開(kāi)始補(bǔ)充這個(gè)領(lǐng)域的知識(shí),全員都需要了解如何利用AI來(lái)提高公司的生產(chǎn)效率。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
從“人+RPA”到“人+生成式AI+RPA”,LLM如何影響RPA人機(jī)交互?
?新壹科技連續(xù)四大重磅發(fā)布 實(shí)現(xiàn)AIGC業(yè)務(wù)落地全鏈路打通
從好看皮囊到有趣靈魂,數(shù)字人正迎來(lái)光榮的進(jìn)化
ChatGPT研究(三)——AIGC多模態(tài)交互功能,奠定多場(chǎng)景商用基礎(chǔ)
AI為方,產(chǎn)業(yè)為向:京東云數(shù)字人的技術(shù)攀爬
AIGC和XR如何賦能廣電發(fā)展?
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服