在英特爾近期發(fā)布的消費(fèi)級產(chǎn)品中,除了12代酷睿系列處理器,最重要的莫過于英特爾Arc銳炫系列高性能獨(dú)立顯卡,這是自從1998年i740之后,英特爾重新回歸游戲GPU領(lǐng)域,并且一步到位,不僅支持時(shí)下主流的實(shí)時(shí)光線追蹤、DX12 Ultimate,同時(shí)也引入了先進(jìn)的架構(gòu)設(shè)計(jì),以及英特爾的獨(dú)門技術(shù)。是的,即便剛剛起步,英特爾Arc同樣顯得誠意滿滿。
事實(shí)上,在英特爾Arc銳炫系列獨(dú)顯正式發(fā)布的同時(shí),諸如三星Galaxy Book2 Pro這樣的筆記本也已經(jīng)同步上市,并且在第二季度,OEM廠商也將陸續(xù)在國內(nèi)推出采用英特爾Arc銳炫系列獨(dú)顯的筆記本,并納入英特爾Evo嚴(yán)苛認(rèn)證的體系內(nèi)。
那么英特爾Arc銳炫系列獨(dú)顯在上市之初為何可以收到如此青睞,它能否可以解決我們工作、游戲、移動(dòng)場景需求?現(xiàn)在不妨讓我們在英特爾Arc銳炫系列全面鋪貨之前,預(yù)習(xí)一番。
Arc 3、5、7新品蓄勢待發(fā)
在沒有正式涉足消費(fèi)領(lǐng)域之前,英特爾其實(shí)已經(jīng)準(zhǔn)備了一套完整的GPU架構(gòu)和設(shè)計(jì)方案,并在10代酷睿上Iris核顯Xe-LP開始付諸應(yīng)用,然后發(fā)展到游戲獨(dú)立顯卡的Xe-HPG,也就是之前常被提到的DG2。
Xe-HPG代表著一整套英特爾GPU技術(shù)的發(fā)展體系,現(xiàn)階段首先面世的是Alchemist(煉金術(shù)士)架構(gòu)GPU,在未來的技術(shù)演進(jìn)中,還將包括Battlemage(戰(zhàn)斗法師)、Celestial(天人)和Druid(德魯伊)多個(gè)架構(gòu),通過一套組合拳,來表達(dá)英特爾在GPU領(lǐng)域嚴(yán)謹(jǐn)?shù)募夹g(shù)發(fā)展規(guī)劃。
回到產(chǎn)品本身。首發(fā)的Alchemist架構(gòu)下包含Intel Arc 3、Intel Arc 5和Intel Arc 7三個(gè)系列定位,與英特爾的Core i系列相同,也便于消費(fèi)者更好的理解。
首發(fā)的Intel A350M和A370M屬于Intel Arc 3系列,與輕薄型筆記本搭配,用來解決1080p分辨率的主流游戲產(chǎn)品,以及提供一定程度內(nèi)容創(chuàng)作性能。在今年第二季度,Intel 5和Intel 7也會(huì)陸續(xù)推出,分別定位性能游戲,以及硬核性能游戲,對應(yīng)的GPU性能與創(chuàng)作能力也更強(qiáng)。
這里英特爾也大方的展示了三個(gè)系列5個(gè)型號的具體產(chǎn)品細(xì)節(jié)。例如A370M擁有8個(gè)Xe內(nèi)核和光追單元,64bit位寬,功耗設(shè)計(jì)在35W到50W,A550M擁有16個(gè)Xe內(nèi)核和光追單元,顯存位寬來到128bit。而象征著高端的A770M則擁有32個(gè)Xe內(nèi)核和光追單元,256bit顯存位寬,16GB顯存容量,功耗也來到了120W到150W之間。
無一例外的是,所有獨(dú)立顯卡都將配備GDDR6顯存,具備獨(dú)立的硬件實(shí)時(shí)光線追蹤單元,支持微軟DXR和Vulkan RT,并且也支持DirectX 12 Ultimate里面所需要的可變速率著色、網(wǎng)格著色、采樣器反饋等功能。
在英特爾官方提供的游戲幀率參考中可以發(fā)現(xiàn),通過A370M與酷睿i7-12700H搭配,目前主流的游戲可以達(dá)到60FPS以上,而對競技性要求更高的《堡壘之夜》等在線對抗類游戲,更是可以突破90FPS。
同樣,針對新推出的游戲,Intel Arc也進(jìn)行了提前優(yōu)化。英特爾已經(jīng)與頂級游戲工作室展開合作,將GPU的AI引擎,新技術(shù),以及用于游戲幀率優(yōu)化的XeSS超級采樣技術(shù)融入到游戲和內(nèi)容創(chuàng)作軟件中,讓新版游戲和創(chuàng)作軟件在到手的那一刻就能發(fā)揮出GPU的應(yīng)有性能。這一點(diǎn)我們會(huì)在文章后半部分進(jìn)行相對深度的解析。
讓技術(shù)先行
Xe-HPG循序漸進(jìn)的發(fā)展體系,注定了英特爾GPU在推向消費(fèi)市場是產(chǎn)品走向成熟化的結(jié)果。在了解Intel Arc,Xe-HPG架構(gòu)之前,不妨讓我們從產(chǎn)品技術(shù)基礎(chǔ)開始,這也將幫助我們理解英特爾GPU,以及對英特爾GPU未來數(shù)年規(guī)劃是如何產(chǎn)生影響的。
從結(jié)構(gòu)上來看,Xe-HPG并非Xe-LP的粗暴擴(kuò)充版本,而是引入了一套英特爾全新的IP內(nèi)核Xe-Core,也就是Xe內(nèi)核。這也意味著,諸如EU、執(zhí)行單元之類的描述,是無法準(zhǔn)確表達(dá)Xe-HPG相關(guān)GPU的。
Xe內(nèi)核可以理解成為向量與張量ALU的集合,具備獨(dú)立的L0和L1緩存,在邏輯層面上與Xe-LP子切片、NVIDIA SM流處理器相近。這樣的設(shè)計(jì)主要是方便不同的開發(fā)人員在邏輯上調(diào)用的方便性,以便更好的與主流市場兼容。需要注意的是,單元層級之間也并非一成不變,可以根據(jù)市場需求情況進(jìn)行調(diào)整,比如NVIDIA就曾經(jīng)數(shù)次對SM層級進(jìn)行修改,匹配當(dāng)時(shí)的游戲和視覺運(yùn)算需要。
每一個(gè)Xe內(nèi)核中都配備了16個(gè)矢量引擎(Xe Vector Engines,XVE)和16個(gè)矩陣引擎(Xe Matrix eXtensions,XMX)。
先說矢量引擎。每個(gè)矢量引擎在每個(gè)周期內(nèi)可以處理256bit,主要為傳統(tǒng)圖形著色器執(zhí)行大部分運(yùn)算。如果再向下拆解,每個(gè)矢量引擎包含8個(gè)FP32 ALU,與Xe-LP EU大致相同。由于16個(gè)矢量引擎每個(gè)時(shí)鐘能夠處理128次FP32操作,即FMA吞吐量為256 FLOPS。在每時(shí)鐘吞吐量上,英特爾Arc的表現(xiàn)與世面主流顯卡NVIDIA Ampere GPU SM吞吐量是相同的。
在Xe內(nèi)核中,與16個(gè)矢量引擎進(jìn)行1:1配對的是16個(gè)矩陣引擎,主要負(fù)責(zé)傳統(tǒng)圖像處理的計(jì)算任務(wù),解決一系列大型的矩陣乘法和累加算法問題,包括游戲中會(huì)使用到的XeSS超采樣技術(shù),以平衡實(shí)時(shí)光線追蹤技術(shù)對游戲幀率造成的衰減。
這里英特爾使用了一個(gè)專有名詞來命名,即Xe Matrix eXtensions,縮寫XMX,可見其重要性。XMX主要用于AI加速、矩陣/張量計(jì)算,每個(gè)XMX引擎使用一個(gè)8深度脈動(dòng)陣列制。XMX每個(gè)時(shí)鐘周期執(zhí)行8個(gè)512位寬的矩陣計(jì)算運(yùn)算。這些矢量引擎和矩陣引擎由一個(gè)可以每個(gè)時(shí)鐘周期取回512B數(shù)據(jù)的寬加載/存儲單元支持。從而有效提高執(zhí)行性能和算力,可以同時(shí)調(diào)度和執(zhí)行浮點(diǎn)FP、整數(shù)INT和 XMX 指令,并以鎖步形式并行兩個(gè)引擎和共享資源。
Xe內(nèi)核向上一個(gè)層級,被稱為渲染切片(Rendering Slice),渲染切片將給英特爾GPU提供大部分的功能,包括前面提到的可變速率著色、網(wǎng)格著色、采樣器反饋等等。其中實(shí)時(shí)光線追蹤單元也與主流的RT Core類似,通過加速光線遍歷、求交測試、交匯點(diǎn)著色計(jì)算獲得光追結(jié)果。
在Alchemist(煉金術(shù)士)架構(gòu)中,1個(gè)渲染切片包含4個(gè)Xe內(nèi)核,4個(gè)光線追蹤單元,4個(gè)紋理采樣器、幾何/光柵化前端,2個(gè)像素后端。這樣4:4:4的布局意味著煉金術(shù)士GPU內(nèi),每個(gè)Xe內(nèi)核都能擁有自己的紋理采樣器和光線追蹤單元。
同時(shí)這也提升了Xe-HPG靈活的特性。通過疊加或者刪減渲染切片,就可以打造匹配不同規(guī)格和關(guān)進(jìn)的GPU,目前可以提供至少2個(gè)最多8個(gè)的渲染切片配置。在未來制程工藝如果再進(jìn)步,即使不更改邏輯層,也能通過融入更多的渲染切片達(dá)到更高的吞吐量和更好的效果。
黑科技加持
新GPU如果想在市場站穩(wěn)腳跟,必然需要一些黑科技的加持。在文章中被反復(fù)強(qiáng)調(diào)的XeSS超采樣技術(shù)正式其中之一,利用XMX的AI性能加速,通過一系列AI優(yōu)化算法,以更低的運(yùn)算資源作為代價(jià),換取更高的性能和圖像質(zhì)量。
在技術(shù)層面,XeSS技術(shù)是一種結(jié)合了空間和時(shí)間在AI圖像提升的方式,在宣布Arc品牌發(fā)布之前,英特爾已經(jīng)進(jìn)行了很長時(shí)間的研發(fā),SDK也已經(jīng)先行交個(gè)游戲開發(fā)工作室,因此在正式發(fā)布英特爾GPU的時(shí)候,已經(jīng)獲得了14款游戲?qū)eSS技術(shù)的支持。
在另一個(gè)層面,英特爾則引入了一套Deep Link技術(shù),這是涵蓋不同技術(shù)的總稱,包括了英特爾旗下諸多技術(shù)革新,包括動(dòng)態(tài)功率共享,超級編碼和超級算力。
動(dòng)態(tài)功率共享顧名思義,這項(xiàng)技術(shù)能在系統(tǒng)功耗的限制范圍內(nèi),盡可能最大化釋放CPU或GPU的性能。早在KabyLake-G時(shí)代,英特爾就已經(jīng)開始嘗試CPU與GPU之間的動(dòng)態(tài)功率分配。
在實(shí)際運(yùn)行中,英特爾會(huì)循環(huán)采集各種系統(tǒng)信息,包括但不限于CPU和GPU的溫度,占用率,各自的功耗等等,最核心的參數(shù)還是GPU的利用率。根據(jù)游戲的負(fù)載不同,當(dāng)系統(tǒng)發(fā)現(xiàn)GPU負(fù)載過高會(huì)動(dòng)態(tài)調(diào)整GPU和CPU的功率配比,將更多的功率分配給GPU。當(dāng)系統(tǒng)發(fā)現(xiàn)GPU負(fù)載較低,會(huì)動(dòng)態(tài)調(diào)整功率配比,將功率分配向CPU。如果達(dá)到了良好的動(dòng)態(tài)平衡,就維持當(dāng)前的功率配比。
重點(diǎn)是,英特爾會(huì)以100毫秒為最小間隔來動(dòng)態(tài)調(diào)控功率配比,實(shí)現(xiàn)CPU與GPU之間功耗的高速匹配。
針對編碼,英特爾則引入了一套名為超級編碼的技術(shù),如果筆記本同時(shí)使用了英特爾的CPU和GPU,這套超級編碼技術(shù)就會(huì)啟用,同時(shí)使用CPU的核顯以及獨(dú)立GPU協(xié)同工作,以提升效率。這套技術(shù)是通過OneVPL的API來實(shí)現(xiàn)的,而OneVPL本身就是一個(gè)跨平臺開放性架構(gòu),這意味著更多的媒體引擎都可以加入到這項(xiàng)技術(shù)中,充分發(fā)揮視頻的處理能力。
Deep Link技術(shù)還包括了一項(xiàng)超級算力技術(shù)。這項(xiàng)技術(shù)主要應(yīng)用在AI運(yùn)算上,同樣是CPU核顯與GPU搭配使用,基于OpenVINO框架實(shí)現(xiàn),通過延遲敏感度、吞吐量、性能要求、功率消耗情況,將AI運(yùn)算分配給核顯或者獨(dú)立GPU。這也使得在同時(shí)擁有英特爾CPU和英特爾Arc獨(dú)顯的情況下,筆記本在諸如視頻降噪、提升分辨率、銳化等AI加速表現(xiàn)上,擁有更強(qiáng)的提升。
除此之外,Xe-HPG也融入了Xe媒體引擎,提供了包括H.265 / HEVC、H.264 / MPEG-4 / AVC、VP9 以及業(yè)界首個(gè)對 AV1編碼和解碼的硬件加速支持,英特爾也成為第一家為AV1構(gòu)建硬件編碼支持的GPU提供商。
在規(guī)格上,AV1的效率比最常見的編解碼器H.264高了50%,比HEVC高了20%,能夠以更低的帶寬和更小的文件大小提供更高的畫面質(zhì)量,并且沒有版權(quán)費(fèi)用的禁錮。Intel Arc中的AV1編碼硬件加速與傳統(tǒng)的軟件實(shí)現(xiàn)相比,效率提升了50倍。目前為止,F(xiàn)FMPEG、Handbrake、Adobe和XSplit都集成了對Intel Arc AV1的支持。
Xe顯示引擎還支持包括HDMI 2.0b和DisplayPort 1.4a的規(guī)格,最高能夠提供1080p@360Hz輸出,或者4個(gè)4k@120Hz HDR顯示器擴(kuò)展。
同時(shí)英特爾還引入了支持VESA標(biāo)準(zhǔn)的Adaptive Sync技術(shù)。為了追求跟高的游戲幀率和更快的響應(yīng)速度,游戲玩家通常會(huì)關(guān)閉顯示器垂直同步V-Sync,但會(huì)造成在高渲染率下玩電子競技游戲時(shí)的畫面撕裂的問題。英特爾Adaptive Sync運(yùn)用了模糊化兩個(gè)撕裂幀之間的邊界,來減少視覺失真,從而實(shí)現(xiàn)打開Smooth Sync功能,讓畫面連貫的效果。
全面融入英特爾生態(tài)
無論哪一家GPU廠商,都并非簡單提供一個(gè)GPU硬件,為了推向更廣闊的市場,必須要包辦軟件和應(yīng)用在內(nèi)的完整解決方案。事實(shí)上這也正是英特爾生態(tài)體系下最為擅長的地方。在英特爾Arc銳炫推出的同時(shí),英特爾也開始注重GPU帶來的實(shí)際體驗(yàn),并將其融入英特爾Evo嚴(yán)苛認(rèn)證體系范圍之內(nèi)。
在發(fā)布新顯卡的同時(shí),英特爾同步推出了Arc Control 銳炫控制面板,能夠一站式提供與銳炫顯卡相關(guān)的設(shè)定或者信息接收,包括可以讓用戶快速升級驅(qū)動(dòng),及時(shí)看到顯卡性能的工作負(fù)載,虛擬攝像頭設(shè)定,自動(dòng)生成游戲高光時(shí)刻,主播軟件設(shè)定等等。
與GFE類似,Arc Control控制面板提供了一套無關(guān)操作系統(tǒng)的圖層疊加技術(shù),在盡可能少使用處理器工作負(fù)載的前提下,完成快速便捷的交互任務(wù)。同時(shí)Arc Control控制面板也支持快速安裝和自動(dòng)更新,比如新游戲上架之后,Arc Control控制面板也能快速提供對應(yīng)的新游戲驅(qū)動(dòng),優(yōu)化Arc顯卡運(yùn)行游戲的性能。
針對性能玩家,Arc Control控制面板也提供了一套性能檢測參考,以及完整的GPU工作負(fù)載情況,在未來針對臺式機(jī)GPU,還會(huì)提供功率控制和風(fēng)扇速度。同時(shí),Arc Control還提供了直播、串流相關(guān)的功能和設(shè)置,能夠更快的將游戲畫面上傳至直播平臺。虛擬攝像頭也可以幫助玩家快速提供背景移除、自動(dòng)畫面比例調(diào)整、自動(dòng)保存高光時(shí)刻功能。
如開頭所說,全球首款搭載銳炫A350M顯卡的筆記本是三星Galaxy Book2 Pro已經(jīng)開始在部分地區(qū)銷售,而很快英特爾的OEM和ODM合作伙伴也會(huì)跟進(jìn),在中國市場推出對應(yīng)的英特爾銳炫產(chǎn)品,高端游戲筆記本中也將出現(xiàn)英特爾的身影。
毫無疑問的是,隨著英特爾銳炫A系列獨(dú)立顯卡的推出,英特爾的筆記本體系也將變得更為完整和高效。這也將促進(jìn)合作伙伴加速整個(gè)筆記本生態(tài)應(yīng)用和效能升級,更進(jìn)一步催生出多樣化的筆記本產(chǎn)品。無論對游戲玩家、內(nèi)容創(chuàng)作者還是基本辦公需求的用戶而言,都將帶來體驗(yàn)上的全新改變。而這一點(diǎn)對于消費(fèi)者而言,是最為重要的。
聯(lián)系客服