元宇宙 (Metaverse) 一詞由前綴 meta(意為超越、元) 和詞根 verse(源于 universe,意為宇宙) 組成,直譯就是“元宇宙”,是建立在網(wǎng)絡、算力和算法之上的平行于現(xiàn)實世界的數(shù)字化世界,可以看作是現(xiàn)實世界的延伸,預示著互聯(lián)網(wǎng)未來的發(fā)展方向。元宇宙利用虛擬現(xiàn)實 (virtual reality, VR)、增強現(xiàn)實(augmented reality, AR) 和互聯(lián)網(wǎng) (internet)等技術(shù),將現(xiàn)實世界投射到數(shù)字世界中。人們可以通過虛擬形象在元宇宙中搭建社交、生活、甚至經(jīng)濟系統(tǒng),實現(xiàn)現(xiàn)實世界和虛擬世界的融合。
在過去很長一段時間內(nèi),元宇宙主要流行于科幻小說中,對于大多數(shù)人而言,這完全是個生僻詞。然而,這個早在 30 年前就出現(xiàn)的概念卻在2021 年受到極大關注,并掀起了一股討論元宇宙的熱潮。首先是 2021 年 3 月號稱“元宇宙第一股”的 Roblox 公司上市。隨后,英偉達等科技公司陸續(xù)宣布進軍元宇宙。10 月全球最大的社交網(wǎng)站臉書更是將公司名改為“Meta”。11 月,韓國首爾市政府宣布,啟動“元宇宙首爾”計劃,打造元宇宙城市。我國上海、杭州等城市也陸續(xù)提出發(fā)展元宇宙的計劃。元宇宙重新走進大眾視野,2021 年也因此被稱為“元宇宙”元年。
在智能時代,技術(shù)進步成為推動元宇宙發(fā)展的關鍵動力。當元宇宙概念重新進入人類視野后,我們需要“拋開現(xiàn)象看本質(zhì)”,針對元宇宙的技術(shù)體系的形成與演化進行歸納和分析。這些原本各自發(fā)展的技術(shù),在元宇宙的體系下進行交叉疊加發(fā)展,演進到當前的階段。本文將元宇宙相關的人機交互、人工智能等多種技術(shù)歸納在一個技術(shù)體系下,對認識元宇宙發(fā)展的歷史脈絡和未來趨勢具有重要意義。
1 元宇宙的概念
1.1 基本概念
作家尼爾·斯蒂芬森 1992 年出版的科幻小說《雪崩》中描寫了一個命名為“元界”的世界,其平行于現(xiàn)實世界。元宇宙的最初概念就來自于“元 界”,一般理解為“超越現(xiàn)實世界之外的世界” (如圖 1 所示)。
圖 1 元宇宙的概念
元宇宙基于人工智能、區(qū)塊鏈等技術(shù),將現(xiàn)實世界的經(jīng)濟、社會映射到虛擬世界,構(gòu)建了一套新的經(jīng)濟、社會系統(tǒng)。元宇宙作為“新的經(jīng)濟、社會和文明形態(tài)”[2],將徹底改變我們與時空交互的方式,形成在虛實兩個維度上的新型生活方式?,F(xiàn)在,元宇宙正處于不斷演化、發(fā)展的階段,還沒有一個統(tǒng)一的表述形式。因此,不同的參與方針對宇宙存在多種表述,如表 1 所示。
表 1 元宇宙的相關定義描述
現(xiàn)實世界存在兩大關鍵要素:生產(chǎn)資料和生產(chǎn)關系。實際上,盡管存在不同的認識和定義,元宇宙中的世界也是對生產(chǎn)資料和生產(chǎn)關系改造和重構(gòu)。因此,和現(xiàn)實世界類似,元宇宙中的發(fā)展也符合人類社會的發(fā)展規(guī)律。在元宇宙中,復雜和多樣化的人際關系也出現(xiàn)在虛擬數(shù)字人中,并能產(chǎn)生基于數(shù)字商品交換為基礎的社會經(jīng)濟活動。
元宇宙的發(fā)展首先聚焦生產(chǎn)資料 (人、信息與技術(shù)) 的突破,然后通過生產(chǎn)關系 (人與人、信息、物品的交互) 的協(xié)作進行進一步發(fā)展。但是,在現(xiàn)階段,元宇宙在內(nèi)容生產(chǎn)、數(shù)字貨幣、交易規(guī)則等,有待進一步完善,真正元宇宙時代的來臨仍有待時日。
1.2 元宇宙:作為技術(shù)與想象的交互過程
在對元宇宙的理解中,不同的機構(gòu)突出了對某一種或幾種技術(shù)的重視性。如臉書公司強調(diào)虛擬現(xiàn)實 (VR) 技術(shù)的重要性,而英偉達公司特別重視數(shù)字孿生技術(shù) (digital twins)。雖然這些技術(shù)對于元宇宙的形成和發(fā)展很重要,但是并不能孤立地看待某種技術(shù)和元宇宙之間的關系,認為只要某個技術(shù)取得了突破,就能進入元宇宙,顯然有失偏駁。
一方面,元宇宙的發(fā)展是一個過程,在某一時刻,構(gòu)建元宇宙所需要的技術(shù)并不是特定的。如目前 VR 被認為是元宇宙相關技術(shù)中的重要技術(shù),但被公認為目前最具有元宇宙特征的 Roblox 公司的產(chǎn)品中并沒有用到 VR。另一方面,從功能的實現(xiàn)來看,元宇宙需要多種技術(shù)的交叉融合。如現(xiàn)在VR 技術(shù)發(fā)展的一大難題就是降低眩暈感,這就需要 5G 或者更好的通訊技術(shù)作為支撐。
實際上,人們的合理想象如何在元宇宙中實現(xiàn)和運行,會受到技術(shù)條件和各種物質(zhì)環(huán)境的約束。反觀,這些技術(shù)究竟會被以怎樣的方式應用到元宇宙,同時又會怎樣促進技術(shù)本身的發(fā)展,卻是取決于我們對元宇宙的正確“想象”。
因此,從這個角度看,元宇宙并不是一個靜止的概念,而是一個想象和技術(shù)相互反應、相互交叉、聚合的過程。在不同的技術(shù)條件下,人們認識到的元宇宙是不同的,如表 2 所示。
表 2 不同技術(shù)基礎上的元宇宙
2 “BIGCHINA”:認識元宇宙的技術(shù)體系
元宇宙技術(shù)由多種數(shù)字技術(shù)融合構(gòu)成。在查閱與元宇宙相關的各種報道時,發(fā)現(xiàn)交互技術(shù)、人工智能、高性能計算等充滿科技感的詞匯都和元宇 宙存在交集。在相關研究基礎上,本文將其中的關鍵技術(shù)分為 8 類:1) 區(qū)塊鏈技術(shù) (blockchain technology);2) 交互技術(shù) (interaction technology);3) 通訊技術(shù) (5G、6G,communication technology);4) 云和邊緣計算 (cloud and edge computing);5) 高性能計算 (high-performance computing);6) 物聯(lián)網(wǎng) (internet of things, IoT);7) 網(wǎng)絡技術(shù) (network);8) 人工智能技術(shù) (artificial intelligence)。
基于以上 8 類技術(shù)的首字母縮寫,本文提出了 BIGCHINA 技術(shù)體系。當利用 Web of Science的文獻引用信息繪制和元宇宙相關的技術(shù)詞云時,借用中國地圖形態(tài)呈現(xiàn)該詞云。因此,也將其稱為支撐元宇宙發(fā)展的“大中國”技術(shù)體系。中國自古以來“以天下為己任”的世界觀,也符合元宇宙作為全球數(shù)字一體化背景下人類所共享的跨邊界、去中心化的開放互通平臺的特征,預示著其未來可能的一種理想形態(tài)。元宇宙集成和整合了之前很多的技術(shù),其未來的想象空間巨大,潛力得到更全面的釋放。
圖 2 BIGCHINA 技術(shù)體系
BIGCHINA 技術(shù)體系如圖 2 所示,接下來將逐一對這 8 類技術(shù)的基本狀況進行介紹,分析順序并不嚴格按照“BIGCHINA”的字母順序。
2.1 交互技術(shù)
從技術(shù)角度看,元宇宙是由計算機生成的,因此計算機成為進入元宇宙的必要途徑。并且,一個人在元宇宙內(nèi)的所有行為,也都是通過計算機來實現(xiàn)的。因此,當需要找到一個現(xiàn)實世界通向元宇宙的“大門”時,人機交互就是打開這個大門的“鑰匙”。
雖然計算機是人類發(fā)明的工具,但自它發(fā)明以來,卻一直處在“主體”的位置,人們要根據(jù)機器的特征去調(diào)整與它的交互方式。在這種條件下,人的創(chuàng)造性和能動性受到束縛。因此,實現(xiàn)人機交互的根本變革,實現(xiàn)從“機器是主體”到“人是主體”的轉(zhuǎn)變就十分重要。元宇宙把人們從過去通過文字、代碼等方式進行人機交流的情境中解脫出來,轉(zhuǎn)而在一個虛擬環(huán)境下,用更為自然的方式來達成人機交互。而要做到這一點,就需要有多種技術(shù)進行支撐。
與元宇宙相關的交互技術(shù)主要分為兩類:擴展現(xiàn)實技術(shù) (extended reality, ER) 和輸入技術(shù)。前者又包括了虛擬現(xiàn)實 (VR)、增強現(xiàn)實 (AR) 以及混合現(xiàn)實 (mixed reality, MR)。
1) 擴展現(xiàn)實技術(shù):如果說 VR 是用計算機模擬出虛擬的世界,那么 AR 則是要將圖形、聲音、觸覺等要素添加到現(xiàn)實世界中,MR 是把 AR 和 VR相結(jié)合,徹底達到虛實結(jié)合、虛實交互。
嚴格來說,AR 和 MR 是有區(qū)別的:虛擬和現(xiàn)實是可分的,就是 AR。反之,如果虛擬位置的相對位置會隨著設備變動,并且虛實之間融為一體,那么就是 MR。當然,在實踐中人們經(jīng)常混用這兩個詞,很多本應稱為 MR 的產(chǎn)品,都被稱為 AR??紤]到這種習慣上的混用,在后文中也不對AR和 MR 進行詳細區(qū)分,都統(tǒng)稱為 AR。
① 虛擬現(xiàn)實 (VR)。人們對場景的感知往往是通過視覺、聽覺等感官來實現(xiàn)。因此在模擬一個虛擬環(huán)境時,也必須從這些感官入手來進行。在所有感官的刺激當中,視覺刺激最重要,應用也最廣泛,因此,以下主要以視覺為例進行分析。
目前,視覺VR技術(shù)廣泛應用,但其技術(shù)瓶頸依然存在。如很多用戶戴上 VR 頭盔會感到頭暈, 其原因是人的反應和圖像變化之間的延遲比較嚴重。在元宇宙環(huán)境下,信息傳輸量巨大,相應的延遲會更嚴重。此外,VR 設備的重量也是問題,人們長時間攜帶這么笨重的設備,難以在元宇宙中獲得好的體驗感。因此,要迎接元宇宙時代的到來,VR 技術(shù)仍需進一步突破。
② 增強現(xiàn)實 (AR)。和視覺 VR 的純虛擬圖像不同,AR 實現(xiàn)了現(xiàn)實圖像和虛擬圖像的結(jié)合。在實踐中,一個視覺 AR 系統(tǒng)通常會先通過攝像頭或傳感器來對真實場景進行采集,并將其圖像傳入后臺進行分析,從而得出現(xiàn)實場景的相關坐標。然后,系統(tǒng)會根據(jù)這個坐標,對虛擬場景和現(xiàn)實場景進行匹配,生成虛實結(jié)合的場景。
在上述工作中,對現(xiàn)實場景進行有效的定位極為關鍵。主要的定位模式有兩種,一種是基于圖像的定位,一種是基于“即時定位與地圖構(gòu)建”(simultaneously localization and mapping, SLAM) 的定位技術(shù)。前者是先對某個具體的圖像進行分析,確定其坐標,然后用這些坐標來進行定位。如用手機上的修圖應用給一個人的正面照加上一副眼鏡特效,手機就會先對照片進行分析定位五官,然后確認出應該把虛擬的眼鏡放在什么地方。而基于SLAM 的定位通過攝像頭采集周圍的信息,再把這些信息和數(shù)據(jù)庫中的信息進行比對,就可以給出相應的定位,找到確切的坐標。
此外,在沉浸式設備的技術(shù)性能上,用戶沉浸感受到視野的限制。頭盔設備有限的視場遠小于人類視覺。如在谷歌眼鏡等低規(guī)格頭盔設備上,視場可以相當于離用戶視線 240 cm 的 25 英寸顯示屏。隨著顯示技術(shù)的進步,未來視野受限的問題會得到解決。
元宇宙的虛擬顯示方式是另一個重要課題。一個常用的設計策略是利用用戶的周邊視野,該方案最初旨在識別障礙物,避免危險事故,并在廣泛的活動中測量腳的位置,如行走、駕駛等活動。用戶可以專注于物理世界中的其他任務,而不受到來自元宇宙中的虛擬實體的干擾。當在用戶的視野中呈現(xiàn)虛擬覆蓋時,顏色、內(nèi)容的合法性、可讀性、視覺疲勞、運動抖動等因素也需一并考慮。
擴展現(xiàn)實技術(shù)是近年來綜合多學科的計算機領域的一門新技術(shù),涉及航天、軍事、通信、醫(yī)療、商業(yè)等研究和應用領域。目前在傳感和感知機理、幾何與物理建模、高速圖形圖像處理等方面均存在技術(shù)難點。因此,進一步提升現(xiàn)有 VR 系統(tǒng)的交互性和沉浸感仍存挑戰(zhàn)。
2) 輸入技術(shù):無論是 VR 還是 AR,如果沒有解決人機交互過程中的輸入問題,就無法讓用戶在元宇宙當中自由遨游。在傳統(tǒng)的鍵盤、鼠標、麥克風等輸入設備基礎上,新的更加自然的輸入方式被引入。關于元宇宙中的輸入問題存在不同的解決方案。
① 徒手交互 (freehand interaction)。如短視頻就使用了這種交互方式。這種交互非常直觀,但它的局限也較為明顯。當面對更為復雜的情況時,徒手交互無法僅依賴屏幕實現(xiàn)更復雜的交互手勢,因此必須引入計算機視覺技術(shù)。此外,包括光學、熱釋電紅外等方式被引入以支持更復雜的用戶交互。
② 采用“身體交互”(on-body user interaction),通過附著在用戶前臂上的傳感器,可以將用戶的身體變成輸入載體。這樣,用戶可以像電影中的“蜘蛛俠”一樣,通過在身體上輕擊,實現(xiàn)與各種數(shù)字實體的通信。最新的身體交互技術(shù)具有設備小型化趨勢,從手掌區(qū)域到指尖。
③ “數(shù)字紡織品”。該技術(shù)在普通織物中集成新型材料和導線的交互設備,支持用戶與 2D、3D界面的交互。谷歌推出的“雅卡爾計劃”(project Jacquard),專門從事低成本的數(shù)字紡織品的研發(fā)和生產(chǎn)??梢韵胂?,不久的將來,融合了智能編織技術(shù)的服裝將會成為人類暢游元宇宙時最重要的輸入設備之一。
④ “ 腦機接口 ” (brain computer interface,BCI)。人或動物的大腦信號與外部數(shù)字設備之間創(chuàng)建連接通道,從而實現(xiàn)大腦信號與外部信息的交換?,F(xiàn)階段已經(jīng)實現(xiàn)了使用“意念”即腦電圖(electroencephalogram, EEG),通過腦機接口打字等人機交互行為。
2.2 人工智能
如果說交互技術(shù)是人們進入元宇宙的門戶,那么人工智能就是讓虛擬世界運轉(zhuǎn)起來的發(fā)動機。人工智能是指讓機器能夠從經(jīng)驗中學習并執(zhí)行各種任務的理論和技術(shù)。近年來,它在各種應用場景中廣泛應用,包括自然語言處理系統(tǒng)、計算機視覺系統(tǒng)和自動識別系統(tǒng)等?,F(xiàn)階段,人工智能在元宇宙的應用主要體現(xiàn)在 3 個方面:數(shù)字克隆體制造、虛擬人的智能化以及數(shù)字化身的個性化。
1) 實時場景和數(shù)字孿生體制造。在元宇宙中,用戶的位置隨時變換。與之對應,虛擬場景也要隨之變換,以保證其與用戶的互動。在這個過程中,大量的圖形、陰影變化,都需要人工智能實時作出判斷。
數(shù)字孿生 (digital twins) 的概念是創(chuàng)建數(shù)字克隆體,并保持與物理世界的相互作用。因此,在工業(yè)領域,數(shù)字孿生技術(shù)正在助力產(chǎn)品設計、測試等關鍵過程。在元宇宙中,如何讓數(shù)字克隆體與現(xiàn)實世界的物體保持一直,并實時交互?深度學習技術(shù) (deep learning) 發(fā)揮了重要作用。數(shù)據(jù)的異構(gòu)性使得深度學習驅(qū)動的數(shù)字孿生必不可少。航空航天以及軍工技術(shù)等離不開數(shù)字孿生的支持。發(fā)達國家目前一直在關注與利用數(shù)字孿生技術(shù)來構(gòu)建未來戰(zhàn)場,不僅是利用數(shù)字孿生技術(shù)來幫助技術(shù)的研發(fā),而是借助于數(shù)字孿生技術(shù)來構(gòu)建與開展戰(zhàn)場的訓練與管理。
2) 虛擬人的智能化。如果物理世界的人類以國家、種族、皮膚顏色來劃分,那元宇宙中的數(shù)字人的劃分又是另外一種形式,如有身份的虛擬人——虛擬化身和虛擬 IP,沒有身份的虛擬人——各式各樣、承擔不同角色和功能的“NPC”虛擬人 (nonplayer character, NPC)。在不同的游戲中每個人擁有不同的虛擬化身,還能根據(jù)個性特點購買相應的服裝 (皮膚) 和道具。慢慢地,虛擬化身從游戲逐 漸滲透到別的領域。除了游戲領域外,對虛擬化身這個物種最敏感的是手機廠商,還有一些大家熟悉的社交軟件。自蘋果手機后,目前虛擬化身的能力對手機廠商來說已經(jīng)是標配,社交軟件也在逐步疊加虛擬化身的功能,慢慢也會成為社交標配型產(chǎn)品。
在元宇宙中,不管是實現(xiàn)人的數(shù)字化身,還是作為“氣氛組”存在的虛擬人 (NPC) 的智能化,都需要人工智能。為了大幅提升虛擬人 NPC 的訓練效果,經(jīng)常會用到強化學習 (reinforcement learning)。
強化學習的學習過程其實是算法 (智能體) 在環(huán)境中進行不斷嘗試和試錯的過程,智能體根據(jù)試錯過程中得到環(huán)境反饋的“獎勵”或者“懲罰”信號,不斷優(yōu)化策略,從而在短時間內(nèi)提升智能決策能力。
3) 數(shù)字化身的個性化。目前,雖然元宇宙中的玩家數(shù)字化身是個性化的,但是只能提供發(fā)型、眼睛、眉毛、鼻子等少數(shù)特征模型供玩家選擇。這導致了很多玩家的形象區(qū)別性不明顯,從而一定程度上降低了玩家在元宇宙中沉浸體驗的樂趣。針對該問題,如果僅僅通過從人體特征庫中隨機抽取并組合一個數(shù)字化身,很有可能會組合出一張審美完全不符合玩家預期的數(shù)字化身形象。
為了克服以上缺陷,“生成對抗網(wǎng)絡”(generative adversarial network, GAN)派上了用場。生成對抗網(wǎng)絡是一種先進的深度學習模型,用于學習訓練樣本的分布,并生成遵循相同分布的數(shù)據(jù)。其核心思想是生成器網(wǎng)絡和鑒別器網(wǎng)絡之間的較量。
具體來說,生成器網(wǎng)絡輸出具有學習數(shù)據(jù)分布的“偽圖像”(fake images),而鑒別器則輸入“偽圖像”并判斷其真實性。以服裝設計圖片生成為例,生成器會在概率密度分布函數(shù)下,生成一張服裝圖片,然后把這張圖片交給鑒別器,讓其判斷是不是一張服裝圖片。起初,鑒別器有一定的服裝圖片鑒別能力。因此,生成器會在鑒別器的“指導”下不斷訓練,一直到生成器生成的圖片被鑒別器網(wǎng)絡鑒別為真后,對鑒別器進行訓練,進一步提高其鑒別能力。這樣,生成器和鑒別器的交替訓練,最后形成一個具有較強服裝設計能力的生成器。目前,包括英偉達在內(nèi)的一些企業(yè)已經(jīng)開始提供基于GAN 的數(shù)字化身生成。
2.3 高性能計算
游戲《堡壘之夜》玩家同時在線的峰值有1 070 萬,但這只是 100 000 個不同的一百人游戲。最終能否將它們?nèi)糠旁谝粋€共享的世界中?那將會是什么樣的體驗?要實現(xiàn)這個愿景,高性能計算必不可少。提到高性能計算,哪怕是初次接觸這個領域的讀者可能也能想到廣為人知的超級計算機。這些超級計算機由于擁有極強的計算能力,被廣泛應用于諸多領域的復雜計算中。
元宇宙可能是繼互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)之后的下一個計算平臺。然而,今天的計算、存儲和網(wǎng)絡基礎設施還不足以實現(xiàn)這一愿景。想要真正擁抱元宇宙,就必須努力突破這一瓶頸。從目前看,突破算力瓶頸存在多種可能的技術(shù)路徑。
高性能計算:使用多處理器或多個設備來完成大規(guī)模密集型數(shù)據(jù)的計算。其中,最為關鍵的核心技術(shù)是并行計算 (parallel computing)。與串行計算相比,在并行計算中,任務被分解并交給多個計算資源進行處理。而前者不會對計算任務進行拆分,一個任務的執(zhí)行會固定占有一塊計算資源。串行計算和并行計算的對比如圖 3 所示。
圖 3 串行計算和并行計算
在元宇宙領域,很多大型企業(yè)給出的計算解決方案的優(yōu)勢都是基于異構(gòu)并行。英偉達在很早的時候就開始探索圖形處理單元 (graphics processing unit, GPU) 和 中 央 處 理 器 (central processing unit,CPU) 之間的協(xié)同,并取得了很好的效果。
完全沉浸式的虛擬環(huán)境需要高性能計算作為底層基礎設施支撐,在元宇宙需求的推動下,數(shù)據(jù)中心作為計算和存儲的重要硬件設施將有望保持10% 以上增速。如果想要參與構(gòu)建元宇宙,在規(guī)模化的體系下必須要有兩大基礎資源支撐:計算和存儲。
Meta(前身為 Facebook) 正在建造新的超級計算機來訓練龐大的機器學習算法。雖然只是部分完成,但人工智能研究超集群 (research supercluster,RSC) 已經(jīng)躋身全球最強大的機器之一。Meta 希望RSC 可以通過訓練更好的算法來改進產(chǎn)品。進一步來講,這些算法可以在數(shù)以萬計的在線用戶之間實現(xiàn)實時語言翻譯,可以從不同的輸入 (包括文本、圖像和視頻) 中學習和泛化。在元宇宙中,用戶要獲得 3D 多感官體驗,就需要在環(huán)境中創(chuàng)建與個人相關的人工智能代理。
雖然 Meta 沒有給出 RSC 當前最高速度的數(shù)據(jù),但就原始處理能力而言,它似乎與世界排名第五的 Perlmutter 超級計算機相當。目前,RSC 運行在6 800 個英偉達 A100 GPU 上,處理計算機視覺工作流程的速度已提高 20 倍,大型語言模型 (如GPT-3) 的處理速度提高了 3 倍。
除了純粹的速度,RSC 還將賦予 Meta 在其海量用戶數(shù)據(jù)上訓練算法的能力。因此,RSC 將使用來自Meta生產(chǎn)服務器的真實世界的用戶數(shù)據(jù)。
為了容納Meta龐大的訓練數(shù)據(jù)集并進一步提高訓練速度 , 不久的將來,RSC將擴容到包括16000個GPU和 1 EB(109) 的存儲空間,RSC將以16 TB/s 的速度提供訓練數(shù)據(jù),并以 5×1018 次/s 浮點計算最高速度運行。
2.4 云計算和邊緣計算
迄今為止,應用最廣泛的元宇宙應用是移動和可穿戴設備,如 AR 眼鏡和智能手機。然而,對于移動設備來說,元宇宙所需的密集計算通常過于繁重。因此,為了保證及時提升用戶體驗性,減少延遲性,特別是在需要實時數(shù)據(jù)處理的場景中,保證用戶身臨其境的體驗至關重要。
1) 云計算。如果高性能計算和量子計算都不能完全解決元宇宙帶來的算力挑戰(zhàn),那么還有一種解決思路就是應用云計算??梢杂靡粋€通俗的比喻來對其進行理解。傳統(tǒng)上,用戶主要是通過調(diào)用自有的單一信息技術(shù) (information technology, IT) 資源,這就好比每家每戶自己發(fā)電供自己用;而云計算則是建了一個大型的發(fā)電站,然后將“電力”(IT 資源) 輸出給所有的用戶。換一種直觀的表述方式,如果進行 IT 領域的創(chuàng)業(yè)工作,自己無需購買物理的服務器設備和機房設施,云計算服務商都會提供在線服務,只需要關注如何設計好程序。
2) 邊緣計算。從理論上看,盡管云計算可以很好地滿足元宇宙產(chǎn)生的巨大運算和存儲需求,但是其缺陷也很明顯。比較重要的一點是,在執(zhí)行云計算時,有大量的數(shù)據(jù)要在本地和云端之間進行交換,這可能會造成明顯的延遲。對于元宇宙的用戶來說,這會對其使用體驗產(chǎn)生負面效果。
“邊緣計算”(edge computing) 是一種在靠近物或數(shù)據(jù)源頭的網(wǎng)絡邊緣提供智能服務的新型計算模型,它能夠節(jié)省網(wǎng)絡流量、提高響應速度和保護用戶隱私,在物聯(lián)網(wǎng)應用中顯示出了優(yōu)于云計算的性能,受到工業(yè)界、學術(shù)界的高度關注和認可。邊緣計算是元宇宙中補充當前云解決方案的一個有希望的技術(shù)路徑,與云計算相比,它可以有效減少用戶體驗的延遲。由于邊緣平臺靠近用戶,因而其與用戶的數(shù)據(jù)交換更加及時,延遲問題可以得到較好解決??梢园言嬎愫瓦吘売嬎泐惐葹榇竽X和神經(jīng)元的關系。研究表明,借助邊緣計算,延遲可以降低 60% 以上。利用邊緣計算的延時優(yōu)勢,研究人員提出了一些解決方案來提高邊緣計算的效率。如邊緣計算技術(shù) EdgeXAR 針對 AR 服務提供了一個移動 AR 框架,利用邊緣卸載的優(yōu)點提供輕量級跟蹤,并對用戶的感知隱藏了卸載延遲。
2.5 通訊技術(shù)
元宇宙基于人機交互技術(shù)實現(xiàn)互動體驗,將數(shù)據(jù)傳輸至云端、邊緣端計算再反饋至設備。然而,如今的技術(shù)難點在于實現(xiàn)低延遲的連接,這對通訊技術(shù)提出了更高的要求。可以將通訊技術(shù)視為元宇宙的數(shù)字“高速公路”,如圖 4 所示。
圖 4 5G 通訊技術(shù)特點和應用場景
在元宇宙中,多媒體應用的吞吐量需求呈指數(shù)級增長。5G 的增強能力將為依賴于大量數(shù)據(jù)實時傳輸 (AR、VR) 的應用打開大門。元宇宙不僅需要大量的可用帶寬,而且可能與其他應用程序產(chǎn)生競爭。因此,有學者預計元宇宙所需求的帶寬將超過 5G 的可用帶寬。在高度交互的應用程序中,如在線云游戲,130 ms 通常被認為是較高的閾值,而一些研究顯示,當延遲低至 23 ms 時,用戶性能會下降。
此外,元宇宙強調(diào)以用戶為中心。因此,在網(wǎng)絡設計方面,需要采取多種形式,從將用戶體驗置于流量管理的核心,到支持以用戶為中心的感知和通信。5G 使許多以用戶為中心的應用搬到了云端,如云游戲、實時視頻流。這些應用廣泛依賴于視頻流的實時傳輸。
現(xiàn)在,5G 技術(shù)已經(jīng)逐漸開始普及。應該說,相對于 4G 或者更早的無線通訊技術(shù),其傳輸速度高了幾個數(shù)量級,要滿足現(xiàn)有的互聯(lián)網(wǎng)信息傳輸可以說是綽綽有余。即便如此,5G的傳輸速度依然難以和有線傳輸相比肩。如果與前面說到的有線傳輸極限速度相比,5G 的傳輸速度大致上只有其 1/16 000。不僅如此,由于 5G 需要建立大量的基站,其成本將十分高昂。
隨著技術(shù)水平的更新,未來內(nèi)容的沉浸式體驗有望進一步升級,但是如何在這些沉浸式設備大規(guī)模接入的同時,實現(xiàn)高同步低延遲的通信將是元宇宙發(fā)展的基本問題。設想一下,你正在元宇宙中欣賞瑰麗壯美的風景,當你轉(zhuǎn)頭時,由于噪聲和延遲導致畫面瞬間變模糊,并在幾秒之后才逐漸將清晰的畫面刷新出來。過高的網(wǎng)絡延遲會導致虛擬物體滯后于預期的位置,造成眩暈感,這些顯然是極度糟糕的體驗。通感互聯(lián)也對網(wǎng)絡時延提出了極高的要求,例如人類大腦對觸覺的反應時間約為 1 ms,而現(xiàn)有的 5G 端到端時延大概在 10 ms 左右,還有不小的提升空間。網(wǎng)絡延遲的程度將直接影響元宇宙用戶的全方位體驗,低延遲穩(wěn)定的高速通信網(wǎng)絡將成為元宇宙的必需品。
2.6 網(wǎng)絡技術(shù)
現(xiàn)實世界和元宇宙,需要網(wǎng)絡技術(shù)進行溝通。除了通訊技術(shù)之外,元宇宙對于網(wǎng)絡的設計也提出了很多新的要求。在元宇宙中,內(nèi)容傳輸量會比現(xiàn)在暴漲幾十甚至上百倍,但對于延遲的忍耐力卻更低。如何才能滿足這種高吞吐、低延時的挑戰(zhàn)?
以城市貨運的場景為例。為了滿足貨運增加的需要,第一反應就是增加數(shù)量更多、速度更快的車。這就好像在考慮傳輸時,會先從通訊技術(shù)層面找突破一樣。但是,對于貨運來講,只增加車的數(shù)量顯然是不夠的。如果不對道路進行相應的規(guī)劃、管制和改建,那么這些飛奔的貨車就會撞在一起,造成一片混亂。同樣的,如果不對網(wǎng)絡加以相應的設計,那么僅靠通訊能力的提升也無法很好適應元宇宙的挑戰(zhàn)。
面對擁堵的交通局面,一般來說,會采用宏微觀兩個層面的方法來對交通進行疏導。在宏觀層面,把道路進行分類,讓不同的車走不同的道。在微觀層面,在各個路口安排交警進行協(xié)調(diào)。交警就會讓有特殊情況的車輛先行通過,而對于其他的司機,則需要進行更多等待。在網(wǎng)絡設計上,類似的思路依然適用。
交通上的分道行駛,在網(wǎng)絡設計上被稱為“網(wǎng)絡切片”。網(wǎng)絡切片為元宇宙中的應用程序提供吞吐量、抖動和延遲保證。簡而言之,它就是把一個整體的網(wǎng)絡切分成幾個層,讓不同的應用在不同的層次進行傳輸。這樣,就可以在總傳輸能力有限的情況下,優(yōu)先保證那些對網(wǎng)絡要求較高的需求。
可以想見,當元宇宙的需求被真正激活后,傳輸總量、傳輸種類會出現(xiàn)暴增。在這種情況下,要對網(wǎng)絡的資源進行更好的宏觀配置,勢必要對網(wǎng)絡進行更為科學、精細的切片。交警對于道路的微觀疏導對應到網(wǎng)絡領域,可以類比為服務質(zhì)量管理(quality of service, QoS)。當?shù)缆吠ㄟ^量有限時,就必須決定誰先行、誰等待。類似的,當網(wǎng)絡傳輸擁堵時,就必定會發(fā)生數(shù)據(jù)包的丟失。這時到底丟棄誰的數(shù)據(jù)包就成為一個問題。QoS 管理的邏輯就是按照服務對傳輸質(zhì)量的要求來決定優(yōu)先級,先丟棄那些對于傳輸要求不高的服務數(shù)據(jù),以盡可能保住那些對傳輸要求高的服務數(shù)據(jù)。而究竟哪些服務對于傳輸?shù)囊蟾?,依靠的主要是一套技術(shù)上的客觀標準。
這個邏輯本身沒有問題。但是,在元宇宙條件下,人的主觀體驗可能會越來越重要,用體驗質(zhì)量管理 (quality of experience, QoE) 取代 QoS 管理的訴求也變得越來越強。舉例來說,如果從純技術(shù)的角度看,對一個機器指令的傳輸可能要比一個游戲信號的傳輸更為重要,因此基于 QoS 的標準,應該先讓對機器的指令通過。但對于用戶來講,這可能并不正確。事實上,對于很多人來講,一個機器早執(zhí)行、晚執(zhí)行一個任務幾分鐘并沒有什么問題,而如果一個游戲的信號晚了幾毫秒,他的體驗就會大幅下降。因此,基于 QoE 的思路應該先讓游戲信號通過。
當然,元宇宙的應用場景很多,QoS 和 QoE管理都有其市場。至于如何根據(jù)場景的變化,隨時切換兩種管理模式,這或許會成為元宇宙條件下網(wǎng)絡設計需要考慮的一個重要問題。
站在網(wǎng)絡空間基礎設施的視角,個人電腦、智能手機和 VR/AR 眼鏡都可歸為一大類接入終端,即“通信型”終端。這些終端本質(zhì)上解決的是人的通信需求。除了“通信型”終端,在網(wǎng)絡空間還有兩大類接入終端,分別為計算型終端和功能型終端。計算型終端指的是一直在執(zhí)行計算任務的終端,主要是各類服務器或者參與網(wǎng)絡計算的節(jié)點,它們與人的通信需求無關,主要工作是完成各類分布式計算任務。通信型和計算型終端一樣,如果不需要執(zhí)行計算或通信操作時,就進入休眠狀態(tài)。功能型終端則與以上兩種終端不同,它們本身就具備特殊功能,最典型的就是智能汽車、工控終端、物聯(lián)網(wǎng)終端等。智能汽車本質(zhì)上是一個高速移動的高質(zhì)量運載體,同時工控終端本身的功能是生成制造,當這兩種終端大規(guī)模接入互聯(lián)網(wǎng)之后,也會產(chǎn)生許多新的互聯(lián)網(wǎng)應用,也就是常說的“車聯(lián)網(wǎng)”和“工業(yè)互聯(lián)網(wǎng)”。
綜上所述,站在網(wǎng)絡接入終端的角度理解元宇宙,它是通信型終端發(fā)展的下一個里程碑,是從以個人電腦和手機為基礎的二維顯示和交互發(fā)展到以 VR/AR 為基礎的三維顯示和交互之后產(chǎn)生的互聯(lián)網(wǎng)應用新形態(tài)。
2.7 物聯(lián)網(wǎng)技術(shù)
現(xiàn)在討論元宇宙,大多將其視為一個與現(xiàn)實世界相對的虛擬世界。無論是虛擬現(xiàn)實,還是人工智能,都圍繞著這個虛擬世界在討論。然而,這種虛實之間的分離敘事顯然難以令人滿意。這時,物聯(lián)網(wǎng)、機器人等技術(shù)就顯示出重要作用。伴隨著新技術(shù)的發(fā)展,虛實之間的互動變得更加容易。
物聯(lián)網(wǎng),就是通過各種信息傳感器、射頻識別等裝置與技術(shù),實時采集關于物體的各種信息,并通過各類可能的網(wǎng)絡接入,達成物與物、人與物的互聯(lián),實現(xiàn)對物品和過程的識別和管理。物聯(lián)網(wǎng)技術(shù)可以嵌入到受控物體的內(nèi)部,讓物品在接收相關指令之后,采取對應的行動。物聯(lián)網(wǎng)技術(shù),再加上通信網(wǎng)絡、云等基礎設施,就可以在人與人互聯(lián)的基礎上,進一步實現(xiàn)萬物互聯(lián)。人們與互聯(lián)網(wǎng)交互的方式將不局限于移動手機和電腦,各種穿戴設備、汽車、家居等都將接入網(wǎng)絡中,滿足以多元化方式接入元宇宙的需求。
如果物聯(lián)網(wǎng)得到充分的普及,那么當人們在元宇宙里看到了想吃的美食之后,就可以通過物聯(lián)網(wǎng)將烹調(diào)美食的指令發(fā)送到附近的機器人。機器人可以根據(jù)程序,制作出對應的美食再送到我們的身邊。如果能夠達成這樣的虛實互動,那么元宇宙對人們來講就不再是一個虛擬世界,而將成為生活世界的一部分。
AR、VR 等虛擬環(huán)境以其突出的內(nèi)容可視化的特點,成為打通機器人與虛擬環(huán)境之間溝通渠道的解決方案。集成了虛擬環(huán)境的工業(yè)實例也使人類用戶能夠理解機器人的操作,如任務場景分析等。因此,人類用戶與機器人建立信任,促進了人類—機器人協(xié)作的范式轉(zhuǎn)變。目前的研究主要集中于機器人的感知以及虛擬環(huán)境中的界面設計方面。
目前,新興的 MR 技術(shù)以工作空間作為通信接口,機器人可以充當我們的朋友、家庭守護者等,人類可以與機器人和無人機進行自然交互。不難想象,未來機器人將積極主動地為社會服務,并自發(fā)地參與各種各樣的應用和服務。通過物理和虛擬世界中無所不在的接口,元宇宙包含了現(xiàn)實—虛擬連續(xù)體,并允許用戶在兩者之間無縫體驗。其中,Meta 公司開發(fā)了一種超薄的且可更換的機器人皮膚,可以讓機器人通過感受物體和環(huán)境在現(xiàn)實與元宇宙之間進行互動。這個機器人的皮膚是橡膠 (不到 3 mm 厚) 和磁性粒子的組合,并與人工智能技術(shù)相結(jié)合,幫助機器人通過觸覺來感受。在機器人皮膚接觸任何表面后,就會產(chǎn)生變形并改變磁場。
2.8 區(qū)塊鏈技術(shù)
區(qū)塊鏈是一個共享的、不可篡改的賬本,旨在促進業(yè)務網(wǎng)絡中的交易記錄和資產(chǎn)跟蹤流程。幾乎任何有價值的東西都可以在區(qū)塊鏈網(wǎng)絡上進行跟蹤和交易,從而降低各方面的風險和成本。在元宇宙中,區(qū)塊鏈是一種重要的技術(shù)。包括 Sandbox 等在內(nèi)的眾多元宇宙公司均采用區(qū)塊鏈來作為它們的經(jīng)濟和治理系統(tǒng)的技術(shù)基礎。
嚴格地說,區(qū)塊鏈并不是一種單一的技術(shù),而是由多種技術(shù)組成的集合體,它的思想可以追溯到中本聰 (Satoshi Nakamoto) 于 2008 年發(fā)表的奠基性論文。現(xiàn)在,區(qū)塊鏈通常被用來指一種去中心化的基礎架構(gòu)和計算范式。它利用加密鏈式區(qū)塊結(jié)構(gòu)來驗證與存儲數(shù)據(jù)、利用分布式節(jié)點共識算法來生成和更新數(shù)據(jù)、利用智能合約來對數(shù)據(jù)進行編程和操作。
元宇宙產(chǎn)生了難以估量的海量數(shù)據(jù),有限的網(wǎng)絡資源無法將如此龐大的數(shù)據(jù)上傳到云服務器。區(qū)塊鏈技術(shù)的迅速發(fā)展使人們看到,將區(qū)塊鏈應用到數(shù)據(jù)存儲系統(tǒng)中可以保證元宇宙服務器的去中心化和安全性。區(qū)塊鏈是由一系列區(qū)塊串接而成的鏈。這些區(qū)塊按照生成時間為順序排列,每一個數(shù)據(jù)區(qū)塊由包含元數(shù)據(jù)的區(qū)塊頭 (header) 和區(qū)塊體(body) 組成。其中,區(qū)塊頭保存的是各種時間戳的信息;而區(qū)塊體保存的則是主要的交易和連接上一區(qū)塊的信息、各種用來驗證區(qū)塊信息的信息。換言之,區(qū)塊頭是用來對“鏈”進行串接的,而區(qū)塊體則是保存信息的主要載體。
在早期的元宇宙項目中,經(jīng)濟和治理系統(tǒng)通常是基于中心化的體系來構(gòu)建的。以著名的早期元宇宙產(chǎn)品《第二人生》為例,經(jīng)濟和治理系統(tǒng)都是由其運營商林登實驗室來構(gòu)建的。如在整個虛擬世界中究竟有多少貨幣流通、每個道具值多少錢、用戶違規(guī)會被怎樣處理等問題,都由林登實驗室掌握最終的解釋權(quán)。不僅如此,從根本上看,用戶在《第二人生》創(chuàng)造的虛擬世界中擁有的所有物品 (包括他們自己創(chuàng)造的內(nèi)容) 的所有權(quán)最終都掌握在林登實驗室手中。如果林登實驗室愿意,就可以隨時剝奪任何一個用戶在虛擬世界當中的一切。
顯然,對于更為強調(diào)自主性的用戶而言,這種霸道的中心化經(jīng)濟和治理系統(tǒng)是很難接受的。因而,為了吸引更多用戶,新近的各種元宇宙項目通常都采用了區(qū)塊鏈來作為底層架構(gòu)。這樣,用戶就可以基于區(qū)塊鏈對這些項目進行自治化的管理,自己決定這個項目的經(jīng)濟如何運作、治理如何運行。與此同時,元宇宙中的各種數(shù)字資產(chǎn)還可以被制成非同質(zhì)化通證 (non-fungible Token, NFT),用戶可以通過持有 NFT 來擁有它們,對它們主張權(quán)益, 還可以在項目內(nèi)外自由地交易它們。
從性質(zhì)上看,區(qū)塊鏈的運作并不依賴于一個中心化的協(xié)調(diào)者,可以實現(xiàn)人與人之間的點對點交互,可以在人們互不相熟的條件下保證交互的安全,盡可能保證用戶的隱私。所有這些性質(zhì),都使得它非常適合元宇宙中“人與人的自由聯(lián)合”的組織方式。因此,現(xiàn)在很多元宇宙項目都開始使用區(qū)塊鏈作為其經(jīng)濟系統(tǒng)和治理系統(tǒng)的底層架構(gòu)。如Decentraland 就是基于以太坊區(qū)塊鏈的完全去中心化的虛擬世界,它最大的價值在于虛擬土地的數(shù)字資產(chǎn)化,玩家可通過區(qū)塊鏈平臺購買虛擬地塊(LAND,以太坊智能合約維護的 NFT) 自由展開建設,真正擁有數(shù)字資產(chǎn)的所有權(quán)。
3 展望
在元宇宙中,人們匯聚在一起,彼此交流、彼此協(xié)作,形成各種新的組織。作為與現(xiàn)實世界對應 的虛擬世界,一個完整的元宇宙也必然會像現(xiàn)實世界一樣擁有自己的經(jīng)濟系統(tǒng),而這個經(jīng)濟系統(tǒng)未來 也將會對元宇宙的發(fā)展起到重要作用。
元宇宙是虛擬的世界,因此其價值也主要體現(xiàn)在虛擬而非現(xiàn)實的層面。但事實上,元宇宙雖然源于虛擬,但其對現(xiàn)實世界卻能產(chǎn)生重要影響。作為虛擬世界,元宇宙并不完全與真實世界隔離,技術(shù)的演進使得兩個世界之間的經(jīng)濟聯(lián)系呈現(xiàn)出逐漸強化的態(tài)勢。
這種推動表現(xiàn)在很多方面。在人類交往方面, 元宇宙降低了人與人、人與信息的交互成本,越來越多的工作開始“在線完成”;在工業(yè)生產(chǎn)方面,對于機器的操作,可以借由“數(shù)字孿生”技術(shù)來保持元宇宙和現(xiàn)實世界的同步;在娛樂方面,不少明星在元宇宙里舉行演唱會,這種高自由度的設定很 大程度上復刻了線下音樂會的沉浸性和互動性,讓觀看效果大幅提升。
未來幾年,元宇宙將進入成長期,各類應用和 場景創(chuàng)新將層出不窮。這意味著,要洞悉元宇宙未來可能發(fā)展的方向,就必須進一步對有關的技術(shù)有深刻的認識。元宇宙作為想象與技術(shù)之間的耦合, 在不同的技術(shù)條件下,其未來形態(tài)和實現(xiàn)方式將呈現(xiàn)百花齊放的局面。
當然,本文總結(jié)的技術(shù)發(fā)展還只是其中的很小 一部分。隨著技術(shù)自身的演進以及社會發(fā)展的帶動 效應,更多的新技術(shù)、新應用、新場景將會出現(xiàn)在 我們身邊,而在不同的虛擬場景和真實場景之間的 穿梭也會徹底改變?nèi)藗兊纳a(chǎn)和生活。
原文刊載于《電子科技大學學報》 2023年1月 作者:茍尤釗 季雪庭 葉盈如 武強 呂琳媛
聯(lián)系客服