九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
Intel GPU的野望:從游戲到數(shù)據(jù)中心

導讀

在Intel Architecture Day上,Intel談到了面向游戲玩家的Xe-HPG架構Alchemist GPU以及面向數(shù)據(jù)中心的Xe-HPC架構GPU芯片Ponte Vecchio。后者被Intel形容為技術難度“堪比登月”的芯片,這也是我們第一次見到MCM(Multi-chip Module)/chiplet形態(tài)的GPU芯片。雖然以前Intel曾多次嘗試過進入GPU領域,但這次恐怕是動作幅度最大、計劃最長遠的一次。借著這次機會,我們也能看看作為GPU領域的新手,Intel是否有機會在兩強爭霸的局面下有所斬獲,另外也能從中窺見當代GPU的思路大致會是什么樣。

本文圍繞面向游戲玩家的Alchemist架構GPU、面向數(shù)據(jù)中心的Ponte Vecchio GPU芯片以及oneAPI開發(fā)平臺進行了系統(tǒng)的分析。推薦給大家。


像Intel Architecture Day這種大型活動,如今露面的普遍都是Raja Koduri。Koduri以前的從業(yè)經(jīng)驗普遍與圖形計算有關,比如他最早于1996年加入的S3 Graphics...Koduri被大眾所知應該是2015年時,他成為AMD的Radeon技術部門首席架構師和高級副總裁。而在加入Intel以后,Koduri儼然成為了Intel的技術代言人。

比較有趣的是,這也伴隨半導體行業(yè)發(fā)生轉(zhuǎn)向的檔口:人們愈發(fā)關注更偏專用的計算方向,甚至有人提出未來CPU這類通用計算處理器會走向邊緣化,或者越來越作為單純的控制器存在。GPU、NPU、IPU等各類XPU如今正大放異彩。所以這些年Intel的XPU策略也在做大肆的擴張,在CPU之外通過收購、研發(fā)快速鋪開了不同的處理器產(chǎn)品線。


比如GPU就是Intel現(xiàn)在的一個發(fā)展重點,不僅是酷睿CPU產(chǎn)品線中近兩年兩度大幅加強了核顯性能(Xe-LP),以及前不久Intel正式發(fā)布游戲GPU品牌“Arc”;還在于一年多以前,Raja Koduri就在Twitter發(fā)了一張Ponte Vecchio(面向數(shù)據(jù)中心的GPU)照片,引發(fā)無數(shù)猜想。

今年的Intel Architecture Day上,更多有關Intel GPU的產(chǎn)品信息揭開面紗。這次Intel主要談到了面向游戲玩家的Xe-HPG架構Alchemist GPU;以及面向數(shù)據(jù)中心的Xe-HPC架構GPU芯片Ponte Vecchio。后者被Intel形容為技術難度“堪比登月”的芯片,這也是我們第一次見到MCM(Multi-chip Module)/chiplet形態(tài)的GPU芯片。

雖然以前Intel曾多次嘗試過進入GPU領域,但這次恐怕是動作幅度最大、計劃最長遠的一次。借著這次機會,我們也能看看作為GPU領域的新手,Intel是否有機會在兩強爭霸(以及數(shù)據(jù)中心英偉達一家獨大)的局面下有所斬獲;另外也能從中窺見當代GPU的思路大致會是什么樣。

本文篇幅較長,大體分成三部分,可選擇性閱讀。不想看技術細節(jié)的,可略過中間部分,直接看最后的總結(jié)。

1.面向游戲玩家的Alchemist架構GPU;
2.面向數(shù)據(jù)中心的Ponte Vecchio GPU芯片;
3.總結(jié),與oneAPI開發(fā)平臺。

01 面向游戲的Alchemist,

臺積電N6工藝造


此前Intel在宣布Xe架構GPU的時候,提出以一個架構做彈性化擴展,來實現(xiàn)GPU產(chǎn)品覆蓋各個領域,包括低功耗平臺、游戲、工作站、數(shù)據(jù)中心等。其實在GPU領域里,同一種架構的規(guī)?;s放也是常態(tài)。Xe此前在規(guī)劃上有Xe-LP、Xe-HP、Xe-HPC之分,面向不同群體如下圖所示:


這次Architecture Day上重點之一的Xe-HPG,是指high performance gaming。從Intel這次的介紹來看,不同的Xe架構差別也可能是比較大的。這次新發(fā)Xe-HPG架構Alchemist的GPU,就和此前集成在酷睿處理器內(nèi)部的Xe-LP架構GPU有很大不同?;蛘哒fXe-HPG GPU并不單純只是Xe-LP GPU的規(guī)模擴大版。

首先是在GPU構成的基本單位上,Intel決定將不再采用之前“EU(執(zhí)行單元)”的說法——原本我們過去談Intel的核顯,都用多少個EU來表明其規(guī)?!热缫苿影?1代酷睿,我們說其上最多有96EU的核顯。Intel說之所以拋棄EU這個說法,是因為“EU數(shù)量變得太大,難以做參考;且迭代變化令其難以做比較”。


所以這次Intel引入了一個新的GPU構成基本單位:Xe核心。Xe核心包括算術單元、cache、load/store邏輯單元。算術單元部分包含一般的矢量引擎,以及加速卷積和矩陣運算的AI引擎。感覺Xe核心在切分粒度上,還是比EU更大,并靠近subslice的。

對于Xe-HPG而言,Xe核心內(nèi)部包含了16個矢量引擎和16個矩陣引擎,如上圖所示。一個矢量引擎每周期處理256bit數(shù)據(jù),16個一起似乎與英偉達安培架構的SM單位吞吐類似。

這里的Matrix Engines矩陣引擎,又被Intel稱作XMX(Xe Matrix eXtensions),結(jié)構上也就是傳說中的脈動陣列(systolic array)。后文會提到,XMX在游戲方面對XeSS這類超分辨率之類需求AI算力的特性是有價值的(XeSS類似于DLSS)。Xe核心的矩陣引擎每周期處理1024bit數(shù)據(jù),轉(zhuǎn)換成常見的inference操作也就是128 INT8。

英偉達GPU也有配套的tensor core,所以Intel的XMX也算是行業(yè)邁進的主旋律了。不過英偉達tensor core的配置并沒有Intel這么激進,Intel這邊是做到了每個Xe核都帶XMX。似乎Intel對AI的未來比英偉達還看好,一旁的AMD不知作何感想。要知道這只是游戲GPU。


多個這樣的Xe核心就構成了所謂的render slice(渲染切片)。Alchemist的一個render slice包含了4個Xe核心——當然除了Xe核心外,還配套了其他渲染固定功能單元,有4個光線追蹤單元、4個紋理采樣器(sampler),以及幾何、光柵化單元,和像素后端(實現(xiàn)8 pixels/clock的吞吐)。在slice層面,Xe-HPG核心的實施粒度似乎比以前的Xe-LP更細了,包括Xe核心數(shù)量及固定功能單元的配置。

Intel特別強調(diào)了Alchemist為DirectX 12 Ultimate設計,所以支持VRS(可變著色率)Tier 2,mesh shading、sampler feedback,當然還有光線追蹤(DirectX、Vulkan)。此處的光線追蹤單元應該也是很多人比較關注的。Intel提到,這些光追單元“旨在加速光線遍歷(ray traversal)、包圍盒相交(bounding box intersection)和三角形相交計算”。這應該是比較常規(guī)的光追專用硬件設計思路,此前我們探討過。光追性能具體是什么樣,還是要等將來的產(chǎn)品問世才能了解。


到整個GPU層面,也就是把這些slice組合起來,通過Memory Fabric將這些slice連接到共享L2 cache。在配置方案上,最多可以連8個slice。完整的GPU前端還會有個全局dispatch處理器,進行具體的任務分發(fā)。構成GPU的其他組成部分,比如顯示、媒體引擎等大概都要等到具體產(chǎn)品問世的時候,才會有具體規(guī)格公布。


到產(chǎn)品層面,Alchemist GPU究竟是何配置,其實還是個未知數(shù)。不過其最大可擴展方案應該會比Xe-LP核顯和之前買不到的DG1(Iris Xe Max),在性能方面高出許多;而且XMX、光追單元之類的功能跟進上,也表現(xiàn)出此前的DG1也就是練個手。

Intel也特別提到,與Xe-LP(DG1)相比,Xe-HPG在架構、邏輯設計、物理設計、工藝改進、軟件迭代等各方面的努力,實現(xiàn)了運行頻率與每瓦性能的提升,這兩項都有1.5倍的提升。尤其頻率提升表現(xiàn)為同電壓下,頻率的1.5倍提升??紤]加上更大的規(guī)模(比如用8個slice),則性能比DG1有數(shù)倍提升應該也不是問題。

談到工藝改進,Alchemist GPU采用臺積電的N6工藝制造——也就是此前N7工藝的一個改款。Alchemist也因此成為Intel的IDM 2.0計劃施行的第一批產(chǎn)品。似乎IDM 2.0的推進還挺順利。以Alchemist產(chǎn)品問世的時間點來看(2022Q1),N6工藝的GPU產(chǎn)品也會有一定的優(yōu)勢。此前Xe-LP核顯和DG1用的是Intel 10nm工藝。

雖然Intel未曾透露最終產(chǎn)品的諸多配置細節(jié),比如說選配多大顯存,頻率具體是多少,以及類似光追單元性能水平如何等。不過就架構層面的這些信息,以及N6工藝在GPU制造方面的略微領先,都令Intel的游戲GPU的準備工作看起來十分到位。


Intel另外也給出了Arc家族GPU未來路線圖,代號為Battlemage、Celestial、Druid的新架構都在開發(fā)中,表明在造游戲GPU這件事情上,Intel這次還是很認真。

除了GPU本身,有關軟件及開發(fā)生態(tài)的問題也是尤為值得一提的,畢竟Intel也算是這個領域的新手:對游戲開發(fā)者而言,成熟和簡易的生態(tài)是確保顯卡最終真正有銷路的基礎。英偉達在這方面的耕耘已經(jīng)很久了,也不是一朝一夕就能超越的。

Intel在會上提到的,主要包括對于DirectX 12 Ultimate新特性的全面支持,包括光線追蹤、VRS、mesh shading、sampler feedback,據(jù)說Intel過去這些年一直在和微軟合作對新功能做打磨。

另外Intel也在與Epic合作,“現(xiàn)在我們的獨立GPU能夠運行虛幻引擎5”。“產(chǎn)品發(fā)布時,我們還將更新我們的用戶控件,幫助玩家利用AI輔助虛擬攝像頭、游戲高光時刻捕捉、直播拍攝等技術。這些技術將使用我們的高性能與高質(zhì)量的硬件編碼器?!?/span>


在特性支持上尤為值得一提的是XeSS(Xe Super Sampling),這是個類似于DLSS超分辨率技術,即將低分辨率的畫面通過深度學習,來合成高分辨率渲染質(zhì)量的畫面。有關英偉達DLSS技術,此前我們多次撰文提到過。說XeSS和DLSS更接近(而不是AMD的FSR),是因為Intel大致解釋提到XeSS原理是藉由畫面中的臨近像素,以及過去幀進行運動補償,來重建子像素細節(jié)。該過程需要通過神經(jīng)網(wǎng)絡進行,和英偉達的二代DLSS是比較類似的。

這種操作顯然就是由Xe核心中的XMX做硬件加速的。Intel在會上也演示了1080p到4K畫面,與原生4K分辨率渲染的比較,效果看起來還不錯。似乎在光線追蹤之外,超分辨率技術也已經(jīng)成為GPU廠商的技術必爭之地了。


比較有趣的是,Intel計劃把XeSS推到Xe GPU以外(這一點就比較像AMD了),“包括競爭對手的產(chǎn)品”?!拔覀兺ㄟ^用DP4a指令來實現(xiàn)這一點,該指令已經(jīng)用于各種硬件產(chǎn)品?!薄斑@會將XeSS帶給數(shù)以百萬計的游戲玩家。”據(jù)說有不少“早期游戲開發(fā)者”已經(jīng)開始采用XeSS?!俺跏糥MX版本的SDK將于本月面向軟件廠商推出,DP4a版本則將于今年晚些時間推出?!?/span>

02 Ponte Vecchio,

第一個MCM GPU


此前我們撰文談到過,GPU越做越大,已經(jīng)接近光刻機可處理的rectile limit,那么GPU未來的發(fā)展方向極有可能是走向chiplet式的MCM(multi-chip module)形態(tài)方案的。只不過GPU要應用MCM,仍然有不小的技術難度。AMD和英偉達此前都在這方面做過努力。

現(xiàn)在看來最早推MCM型GPU的,似乎是Intel,也就是Intel這次花了相當大篇幅解釋的、采用Xe-HPC架構、面向數(shù)據(jù)中心、主要針對AI和HPC工作負載的Ponte Vecchio。Intel說這顆芯片的實現(xiàn),在難度上堪比登月計劃。

現(xiàn)在面向數(shù)據(jù)中心的GPU、FPGA、AI芯片產(chǎn)品,在發(fā)布會上都喜歡用PPT來吊打Intel至強處理器。在算力上用更偏專用的芯片來吊打通用處理器,聽起來是不夠公平的。不過從行業(yè)走向來看,Intel也應該早就發(fā)現(xiàn),CPU在數(shù)據(jù)中心的重要性已經(jīng)大不如前了。即便這次的Sapphire Rapids新增了AMX以及各種專門的加速單元,數(shù)據(jù)中心作為Intel的主場,推更專用的芯片也是勢在必行的。


Raja Koduri也在講話中特別談到了這一點。所以Xe-HPC或者說Ponte Vecchio的使命便是極大程度的填充這其中的空白(這次報道中不曾提及的Intel新發(fā)布的IPU基礎設施處理器,其實也有這樣的使命)。君不見英偉達如今在數(shù)據(jù)中心已經(jīng)賺到盆滿缽滿了嗎?

上面這張圖的藍色曲線表示Intel處理器,綠色表示“業(yè)內(nèi)最好的”(英偉達?),在HPC、AI、內(nèi)存帶寬方面都存在著歷史上的差距(也就是之前每逢處理器芯片,必被吊打的局面)。而Xe是Intel決心領先行業(yè)的GPU架構。那么我們就來看看Intel的Xe-HPC架構,與Ponte Vecchio芯片。


和前文談到的Xe-HPG一樣,Xe-HPC也以Xe核心為GPU的基本構成單元。不過在Xe核心構成上有差別。前文談到,Xe-HPG Alchemist每個核心是16個矢量引擎和16個矩陣引擎,在Xe-HPC上則是8個矢量引擎和8個矩陣引擎(XMX)。但從單引擎可處理的數(shù)據(jù)來看,其量級是不同的。Xe-HPC核心中的單個矢量引擎每周期可處理512bit數(shù)據(jù)——是Xe-HPG的2倍;而每個矩陣引擎,“8深度脈動陣列”,每周期處理4096bit數(shù)據(jù)(8組512bit寬矢量運算),則是Xe-HPG的4倍。顯然Xe-HPC核心極大加強了XMX。似乎比隔壁英偉達的配方在AI算力上明顯更為足料。

Xe核心構成大體與Xe-HPG是一樣的,即主要是ALU、cache、load/store邏輯單元。這里Intel給出了一些更具體的數(shù)字,包括load/store操作是每周期fetch 512bit數(shù)據(jù)——應該比隔壁Xe-HPG要寬;與此同時L1-D cache尺寸為512KB,Intel表示這是行業(yè)內(nèi)最大的?!癓1 cache也可通過軟件配置作為暫存區(qū),即Shared Local Memory(SLM)”。

矢量引擎對于數(shù)據(jù)格式每周期的操作支持,包括了256 FP32、256 FP64、512 FP16;XMX則為2048 TF32、4096 FP16、4096 BF16、8192 INT8。Intel特別強調(diào)說,Xe核心能夠共同發(fā)射(co-issue)指令,“超越這些單一的每個時鐘周期運算次數(shù)”。Intel函數(shù)庫和內(nèi)核利用這項特性可實現(xiàn)Xe核心更高的性能。


多個Xe核心組成slice。一個Xe-HPC的slice是由(最多)16個Xe內(nèi)核構成的,比前文談到的Xe-HPG規(guī)模大出了很多;總共也就是8MB L1 cache。Slice中強調(diào)了Xe-HPG圖形計算的一些固定渲染功能單元;每個核心依然搭配1個光追單元,所以一共是16個光追單元——前面也已經(jīng)提過光追單元用于光線遍歷、包圍盒相交與三角形相交運算。這對專業(yè)視覺應用會有價值。

此處的Hardware Context能夠讓GPU并行執(zhí)行多應用,“不需要開銷比較大的基于軟件的上下文切換”。“這也極大增加了云上GPU的利用率?!盜ntel并沒有說這種硬件上下文切換的具體實現(xiàn)。


多個slice理論上應該構成了完整的GPU,不過Intel在此處稱其為stack。似乎在整個GPU芯片上是一片die,或者一片chiplet的概念。

每個stack具體是4個slice:也就是說一個stack內(nèi)(最多)會包含64個Xe內(nèi)核、64個光追單元、4個Hardware Context。和Xe-HPG一樣,stack這一級也就有了L2 cache(容量未知)。另外作為面向數(shù)據(jù)中心的GPU,外圍要擴展出4個HBM2e控制器,還有“8個Xe Link”——是Intel專用于GPU之間連接的方案。媒體引擎部分,Intel依然沒有細說其規(guī)格。Xe Memory Fabric連接了Copy Engines、媒體引擎、Xe Link模塊、HBM、PCIe組成部分。


MCM的魔法就在Intel的多stack方案中體現(xiàn)出來了。用Intel的EMIB封裝技術把兩個stack(也就是兩個chiplet/die)連起來——EMIB封裝技術此前我們也多有介紹了,這是一種不同于臺積電CoWoS用interposer硅中介來做die與die之間2.5D封裝的方案,而是用嵌入在封裝基板中的silicon bridge,以更低的成本實現(xiàn)die之間的互聯(lián),在效率上又會顯著的高于直接從封裝基板走線的方案。

Intel表示,“我們將每個stack上的Xe Memory Fabric直接連起來,這樣也就在stack之間實現(xiàn)了統(tǒng)一一致性存儲,這對軟件而言很重要?!睒I(yè)界的第一個MCM GPU也就出爐了。上面這張圖展示了2-stack方案。未知這種彈性擴展方案的延遲表現(xiàn)如何,不過這樣的堆料方法的確能夠達成顯著更高的性能水平。



在多stack構成GPU以后,對數(shù)據(jù)中心而言,就涉及到GPU之間的連接了。Intel對此的方案是Xe Link,“支持load/store,大量數(shù)據(jù)遷移和同步語義;包含一個8-port switch,不需要額外的組件,就能在一個節(jié)點內(nèi)實現(xiàn)至多8個GPU完全互聯(lián)”。Intel表示,OAM-Universal BaseBoard加速模塊設計規(guī)范下,對AI一類大型負載普遍可以用8個GPU的方案。不知道互聯(lián)效率如何,Intel也沒有在會上公布帶寬等方面的具體數(shù)據(jù)。

接下來就該到產(chǎn)品層面了,即這回Architecture Day展示的重頭戲Ponte Vecchio芯片。當Ponte Vecchio首席架構師將這枚芯片展示出來的時候,我們還是對其芯片尺寸表示相當震驚:其上超過1000億晶體管,部分用到了臺積電N5工藝,還記得之前的游戲GPU用的是臺積電N6嗎?不過事實上,基于2.5D/3D封裝的不同chiplet用上了不同的制造工藝,據(jù)說這一顆芯片總共涉及到5種不同的制造工藝。


這顆芯片的開發(fā),不只是前文提到的Xe核心及其構成方法,還涉及到各種新架構和新設計,乃至新工具的開發(fā),“我之前從未在一款產(chǎn)品中做過這么多的新東西”,“Ponte Vecchio是我在30年的芯片開發(fā)生涯中開發(fā)的最復雜的芯片。”這是Intel Ponte Vecchio首席架構師Masooma Bhaiwala說的。最終目標是令其跑起來“就和monolithic芯片一樣”,畢竟這是MCM/chiplet式的設計。


Intel把這枚芯片的構成切分為不同的“tile”,有compute tile、rambo tile、XeLink tile、HBM tile、Base tile等。Intel還特別提到,除了以EMIB的封裝方式連接HBM內(nèi)存(以及前面提到Xe-HPG本身也在stack之間做EMIB的die-to-die連接),Ponte Vecchio也用上了Foveros 3D封裝方案,F(xiàn)overos封裝此前我們也撰文仔細探討過。加上不同tile用上了5種制造工藝,有的是臺積電造,有的是Intel自己造,這套方案的復雜度也就可想而知了。

從這張圖似乎很難推斷究竟是哪個tile疊在哪個tile上面,Intel只是說creates the 3D stacking of active silicon for power and interconnect density。Intel在此也特別分享了有關這顆芯片實現(xiàn)上的一些技術挑戰(zhàn),比如由于tile的多樣和復雜性,F(xiàn)overos的位置、floorplan需要在更早期的階段就定稿。Ponte Vecchio芯片的Foveros連接數(shù)也比以往Intel的設計高出2個數(shù)量級。另外,測試驗證也因此很復雜,所以需要實時開發(fā)出更多的工具、方法等等。


這顆芯片上的Compute tile,也就是計算部分屬于芯片核心,每個tile包含8個Xe核心,總共4MB L1 cache(似乎和前面談到Xe-HPC可配置每16個Xe核心構成1個slice、8個slice構成一個stack的方法不大一樣,是某種彈性化方案?)。Compute tile是用臺積電N5工藝制造的。

做Foveros 3D封裝時,這部分tile的bump間距是36μm。從Intel以前公布的數(shù)據(jù)來看,36μm的間距應該是第二代Foveros,相比初代的連接密度翻倍。所以說Compute tile事實上同時濃縮了臺積電最先進的制造工藝,和Intel最先進的封裝工藝,也算是IDM 2.0戰(zhàn)略的大成之作了吧。


Base tile部分是負責連接的,基于Intel 7工藝制造(也就是之前的10nm Enhanced SuperFin),其中包括各種I/O和高帶寬組成部分,包括L2 cache,也涉及到PCIe Gen 5、HBM2e、(tile-tile的)MDFI高速互聯(lián)、EMIB橋等。Intel表示這個base tile是Ponte Vecchio芯片上存在最大設計挑戰(zhàn)的一部分。

另外還有Xe Link tile,也就是負責多GPU互聯(lián)的部分,是基于臺積電N7工藝制造,最高90G的SerDes支持。其他部分tile,Intel并未多做介紹。


Ponte Vecchio整體上,A0芯片(RTL開發(fā)完成后的首個硅流片?)所能達成的性能水平包括>45 TFLOPS的單精度算力(參考英偉達安培架構A100 GPU的FP32標稱算力19.5 TFLOPS),>5 TBps的Memory Fabic帶寬,以及>2 TBps的連接帶寬(應該是指內(nèi)部tile間的高速連接)。這組數(shù)字表明各部分tile在實現(xiàn)上都是比較“健康”的。

Raja有稍稍提到Ponte Vecchio GPU實際性能表現(xiàn),“基于Ponte Vecchio和Sapphire Rapids的ResNet-50推理性能推圖,超過每秒43000張圖,超過市面上能見到的標準。而在訓練方面,我們還處于早期階段,初步測試顯示Xe HPC的計算、內(nèi)存和互聯(lián)帶寬已經(jīng)具備訓練最大型數(shù)據(jù)集和模型的能力。我們現(xiàn)在看到Ponte Vecchio性能是每秒超過3400張圖片?!?/span>

這個表達還是比較模糊,尤其是在沒有其他測試環(huán)境、沒有價格也沒有功耗數(shù)據(jù)的情況下。不過這么足的堆料做到性能上的領先也是應該的。


Ponte Vecchio最終形態(tài)自然是PCIe板卡,外加Xe Link互聯(lián)bridge,Xe Link把多個GPU連起來。Raja表示OEM合作伙伴會提供多種加速計算系統(tǒng)——比如像上圖這樣的,系統(tǒng)方案中配套的CPU當然也就是Sapphire Rapids了。

03 oneAPI,Intel的

XPU野心擴張計劃


最后我們從硬件層面簡單總結(jié)一下Intel的Xe GPU新品。其實就最終產(chǎn)品層面,仍有很多信息是未公開的,畢竟Architecture Day活動是以談架構技術為主的。無論是Xe HPG Alchemist架構的高性能游戲GPU,還是面向數(shù)據(jù)中心HPC、AI的Xe HPC新品Ponte Vecchio芯片,都能表明Intel在GPU方向上投入了巨大的人力和物力。

Intel這次定的起點很高,Alchemist游戲GPU明年一季度就問世,GPU領域主流的光線追蹤、XeSS(超分辨率),以及DirectX 12 Ultimate諸多特性就已經(jīng)準備就緒,而且在堆料上看起來一點也不比英偉達節(jié)約。

而面向數(shù)據(jù)中心的Ponte Vecchio堆料和工藝技術的采用,甚至到了有些令人咂舌的程度。不談Xe核心在矩陣引擎、cache堆料上的充沛,感覺一顆芯片用5種制造工藝,以及2.5D+3D封裝齊上,還是業(yè)界第一顆MCM GPU——這些配置面前,1000億晶體管這種數(shù)字都是不夠看的。怪不得Intel稱其實現(xiàn)難度堪比登月計劃。

就這樣的投入來看,Intel對GPU型產(chǎn)品寄予的期望,應該是完全不落于其傳統(tǒng)項目CPU之后的。畢竟如文首所述,如今的行業(yè)現(xiàn)狀和格局已經(jīng)完全不像從前了。隨摩爾定律的放緩,CPU在各類設備上的重要性都在下降,這是個XPU崛起的時代。只不過以英偉達如今在游戲與數(shù)據(jù)中心領域的地位,要從其口中分得一杯羹,也并不是件易事。


最后的最后,我們從Intel的oneAPI開發(fā)生態(tài)布局上可以看出一些端倪。Intel的XPU策略強調(diào)同一套開發(fā)生態(tài),也就是Intel的oneAPI——這個軟件平臺的主旨是用一套API實現(xiàn)不同硬件性能埠的對接。Intel作為多種不同處理器類型的制造商,而且在CPU市場仍占據(jù)統(tǒng)領地位,推行這套生態(tài)還是有一定的優(yōu)勢;雖然當前GPGPU也還是英偉達的主場。

Intel在這次會上說軟件開發(fā)者以往“必須用OpenCL、CUDA等不同的專業(yè)語言重寫需要加速的代碼。”所以oneAPI提供“開放、基于標準、跨架構、跨矢量的統(tǒng)一軟件棧?!辈贿^oneAPI事實上仍然是比較年輕的平臺,首個版本發(fā)行至今時間也不久。


oneAPI指定了通用的HAL(硬件抽象層)、數(shù)據(jù)并行編程語言,以及解決數(shù)學、深度學習、數(shù)據(jù)分析和視頻處理領域的各種性能庫。更具體的本文就不再多談了。

比較值得一提的是“已經(jīng)有面向英偉達GPU、AMD GPU和Arm CPU的DPC++和oneAPI函數(shù)庫實施方案?!盜ntel的說法是,“獨立軟件開發(fā)商、操作系統(tǒng)開發(fā)商、終端用戶和學術界已經(jīng)在廣泛采用它?!?/span>

Intel公布說目前多個領域的軟件開發(fā)商已經(jīng)推出了超過300個基于oneAPI統(tǒng)一編程模型的應用;現(xiàn)有開發(fā)者超過20萬;而且“我們有超過80個關鍵HPC應用、AI框架和中間件,采用了oneAPI,從現(xiàn)有僅基于CPU、或者是基于CUDA的GPU實施方案上快速移植。”


除了AI以外,oneAPI也有Rendering Toolkit、IoT Toolkit、HPC Toolkit、BASE Toolkit之類的各種構成。比如Rendering Toolkit中可做光線追蹤的組成部分(Embree光線追蹤庫),Intel介紹說oneAPI Rendering Toolkit能應用于第三方處理器,比如說蘋果M1。更多oneAPI的特性,幾段話也很難介紹完。

不過感覺這些已經(jīng)能夠表現(xiàn)出Intel在生態(tài)構建上,入侵競爭對手市場的野心。此前Intel曾表達過oneAPI的“目標”是實現(xiàn)開放、跨平臺、跨架構的開發(fā)與執(zhí)行。其推進動作和速度還真是相當快。

美國阿貢國家實驗室及Aurora項目已經(jīng)在全面啟用包括Sapphire Rapids、Ponte Vecchio、傲騰在內(nèi)的Intel硬件產(chǎn)品,以及oneAPI。一個Aurora blade設備包含2個Sapphire Rapids CPU和6個Ponte Vecchio,主要用于HPC和AI。Intel這家公司如今的運轉(zhuǎn)速度感覺比過去快了非常多。
本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
英特爾的路,走寬了
Intel 2020架構日活動:官方揭開Xe架構面紗,同時公布面向游戲的Xe-HPG架構
Intel頂級顯卡功耗超600W!標配水冷、五層結(jié)構
射月之旅:深度解析英特爾Xe GPU架構
芯片、系統(tǒng)商SC19精銳盡出 卡位HPC/AI大趨勢
英特爾Falcon Shores XPU:一塊處理器囊括N個CPU與GPU
更多類似文章 >>
生活服務
熱點新聞
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服