午夜欧美精品久久久久久久久,午夜一级电影,午夜一区二区免费视频

導讀

在Intel Architecture Day上，Intel談到了面向游戲玩家的Xe-HPG架構Alchemist GPU以及面向數(shù)據(jù)中心的Xe-HPC架構GPU芯片Ponte Vecchio。后者被Intel形容為技術難度“堪比登月”的芯片，這也是我們第一次見到MCM（Multi-chip Module）/chiplet形態(tài)的GPU芯片。雖然以前Intel曾多次嘗試過進入GPU領域，但這次恐怕是動作幅度最大、計劃最長遠的一次。借著這次機會，我們也能看看作為GPU領域的新手，Intel是否有機會在兩強爭霸的局面下有所斬獲，另外也能從中窺見當代GPU的思路大致會是什么樣。

本文圍繞面向游戲玩家的Alchemist架構GPU、面向數(shù)據(jù)中心的Ponte Vecchio GPU芯片以及oneAPI開發(fā)平臺進行了系統(tǒng)的分析。推薦給大家。

像Intel Architecture Day這種大型活動，如今露面的普遍都是Raja Koduri。Koduri以前的從業(yè)經(jīng)驗普遍與圖形計算有關，比如他最早于1996年加入的S3 Graphics...Koduri被大眾所知應該是2015年時，他成為AMD的Radeon技術部門首席架構師和高級副總裁。而在加入Intel以后，Koduri儼然成為了Intel的技術代言人。

比較有趣的是，這也伴隨半導體行業(yè)發(fā)生轉(zhuǎn)向的檔口：人們愈發(fā)關注更偏專用的計算方向，甚至有人提出未來CPU這類通用計算處理器會走向邊緣化，或者越來越作為單純的控制器存在。GPU、NPU、IPU等各類XPU如今正大放異彩。所以這些年Intel的XPU策略也在做大肆的擴張，在CPU之外通過收購、研發(fā)快速鋪開了不同的處理器產(chǎn)品線。

比如GPU就是Intel現(xiàn)在的一個發(fā)展重點，不僅是酷睿CPU產(chǎn)品線中近兩年兩度大幅加強了核顯性能(Xe-LP)，以及前不久Intel正式發(fā)布游戲GPU品牌“Arc”;還在于一年多以前，Raja Koduri就在Twitter發(fā)了一張Ponte Vecchio(面向數(shù)據(jù)中心的GPU)照片，引發(fā)無數(shù)猜想。

今年的Intel Architecture Day上，更多有關Intel GPU的產(chǎn)品信息揭開面紗。這次Intel主要談到了面向游戲玩家的Xe-HPG架構Alchemist GPU;以及面向數(shù)據(jù)中心的Xe-HPC架構GPU芯片Ponte Vecchio。后者被Intel形容為技術難度“堪比登月”的芯片，這也是我們第一次見到MCM(Multi-chip Module)/chiplet形態(tài)的GPU芯片。

雖然以前Intel曾多次嘗試過進入GPU領域，但這次恐怕是動作幅度最大、計劃最長遠的一次。借著這次機會，我們也能看看作為GPU領域的新手，Intel是否有機會在兩強爭霸(以及數(shù)據(jù)中心英偉達一家獨大)的局面下有所斬獲;另外也能從中窺見當代GPU的思路大致會是什么樣。

本文篇幅較長，大體分成三部分，可選擇性閱讀。不想看技術細節(jié)的，可略過中間部分，直接看最后的總結(jié)。

1.面向游戲玩家的Alchemist架構GPU;

2.面向數(shù)據(jù)中心的Ponte Vecchio GPU芯片;

3.總結(jié)，與oneAPI開發(fā)平臺。

01 面向游戲的Alchemist，

臺積電N6工藝造

此前Intel在宣布Xe架構GPU的時候，提出以一個架構做彈性化擴展，來實現(xiàn)GPU產(chǎn)品覆蓋各個領域，包括低功耗平臺、游戲、工作站、數(shù)據(jù)中心等。其實在GPU領域里，同一種架構的規(guī)?；s放也是常態(tài)。Xe此前在規(guī)劃上有Xe-LP、Xe-HP、Xe-HPC之分，面向不同群體如下圖所示：

這次Architecture Day上重點之一的Xe-HPG，是指high performance gaming。從Intel這次的介紹來看，不同的Xe架構差別也可能是比較大的。這次新發(fā)Xe-HPG架構Alchemist的GPU，就和此前集成在酷睿處理器內(nèi)部的Xe-LP架構GPU有很大不同?；蛘哒fXe-HPG GPU并不單純只是Xe-LP GPU的規(guī)模擴大版。

首先是在GPU構成的基本單位上，Intel決定將不再采用之前“EU(執(zhí)行單元)”的說法——原本我們過去談Intel的核顯，都用多少個EU來表明其規(guī)?！热缫苿影?1代酷睿，我們說其上最多有96EU的核顯。Intel說之所以拋棄EU這個說法，是因為“EU數(shù)量變得太大，難以做參考;且迭代變化令其難以做比較”。

所以這次Intel引入了一個新的GPU構成基本單位：Xe核心。Xe核心包括算術單元、cache、load/store邏輯單元。算術單元部分包含一般的矢量引擎，以及加速卷積和矩陣運算的AI引擎。感覺Xe核心在切分粒度上，還是比EU更大，并靠近subslice的。

對于Xe-HPG而言，Xe核心內(nèi)部包含了16個矢量引擎和16個矩陣引擎，如上圖所示。一個矢量引擎每周期處理256bit數(shù)據(jù)，16個一起似乎與英偉達安培架構的SM單位吞吐類似。

這里的Matrix Engines矩陣引擎，又被Intel稱作XMX(Xe Matrix eXtensions)，結(jié)構上也就是傳說中的脈動陣列(systolic array)。后文會提到，XMX在游戲方面對XeSS這類超分辨率之類需求AI算力的特性是有價值的(XeSS類似于DLSS)。Xe核心的矩陣引擎每周期處理1024bit數(shù)據(jù)，轉(zhuǎn)換成常見的inference操作也就是128 INT8。

英偉達GPU也有配套的tensor core，所以Intel的XMX也算是行業(yè)邁進的主旋律了。不過英偉達tensor core的配置并沒有Intel這么激進，Intel這邊是做到了每個Xe核都帶XMX。似乎Intel對AI的未來比英偉達還看好，一旁的AMD不知作何感想。要知道這只是游戲GPU。

多個這樣的Xe核心就構成了所謂的render slice(渲染切片)。Alchemist的一個render slice包含了4個Xe核心——當然除了Xe核心外，還配套了其他渲染固定功能單元，有4個光線追蹤單元、4個紋理采樣器(sampler)，以及幾何、光柵化單元，和像素后端(實現(xiàn)8 pixels/clock的吞吐)。在slice層面，Xe-HPG核心的實施粒度似乎比以前的Xe-LP更細了，包括Xe核心數(shù)量及固定功能單元的配置。

Intel特別強調(diào)了Alchemist為DirectX 12 Ultimate設計，所以支持VRS(可變著色率)Tier 2，mesh shading、sampler feedback，當然還有光線追蹤(DirectX、Vulkan)。此處的光線追蹤單元應該也是很多人比較關注的。Intel提到，這些光追單元“旨在加速光線遍歷(ray traversal)、包圍盒相交(bounding box intersection)和三角形相交計算”。這應該是比較常規(guī)的光追專用硬件設計思路，此前我們探討過。光追性能具體是什么樣，還是要等將來的產(chǎn)品問世才能了解。

到整個GPU層面，也就是把這些slice組合起來，通過Memory Fabric將這些slice連接到共享L2 cache。在配置方案上，最多可以連8個slice。完整的GPU前端還會有個全局dispatch處理器，進行具體的任務分發(fā)。構成GPU的其他組成部分，比如顯示、媒體引擎等大概都要等到具體產(chǎn)品問世的時候，才會有具體規(guī)格公布。

到產(chǎn)品層面，Alchemist GPU究竟是何配置，其實還是個未知數(shù)。不過其最大可擴展方案應該會比Xe-LP核顯和之前買不到的DG1(Iris Xe Max)，在性能方面高出許多;而且XMX、光追單元之類的功能跟進上，也表現(xiàn)出此前的DG1也就是練個手。

Intel也特別提到，與Xe-LP(DG1)相比，Xe-HPG在架構、邏輯設計、物理設計、工藝改進、軟件迭代等各方面的努力，實現(xiàn)了運行頻率與每瓦性能的提升，這兩項都有1.5倍的提升。尤其頻率提升表現(xiàn)為同電壓下，頻率的1.5倍提升?？紤]加上更大的規(guī)模(比如用8個slice)，則性能比DG1有數(shù)倍提升應該也不是問題。

談到工藝改進，Alchemist GPU采用臺積電的N6工藝制造——也就是此前N7工藝的一個改款。Alchemist也因此成為Intel的IDM 2.0計劃施行的第一批產(chǎn)品。似乎IDM 2.0的推進還挺順利。以Alchemist產(chǎn)品問世的時間點來看(2022Q1)，N6工藝的GPU產(chǎn)品也會有一定的優(yōu)勢。此前Xe-LP核顯和DG1用的是Intel 10nm工藝。

雖然Intel未曾透露最終產(chǎn)品的諸多配置細節(jié)，比如說選配多大顯存，頻率具體是多少，以及類似光追單元性能水平如何等。不過就架構層面的這些信息，以及N6工藝在GPU制造方面的略微領先，都令Intel的游戲GPU的準備工作看起來十分到位。

Intel另外也給出了Arc家族GPU未來路線圖，代號為Battlemage、Celestial、Druid的新架構都在開發(fā)中，表明在造游戲GPU這件事情上，Intel這次還是很認真。

除了GPU本身，有關軟件及開發(fā)生態(tài)的問題也是尤為值得一提的，畢竟Intel也算是這個領域的新手：對游戲開發(fā)者而言，成熟和簡易的生態(tài)是確保顯卡最終真正有銷路的基礎。英偉達在這方面的耕耘已經(jīng)很久了，也不是一朝一夕就能超越的。

Intel在會上提到的，主要包括對于DirectX 12 Ultimate新特性的全面支持，包括光線追蹤、VRS、mesh shading、sampler feedback，據(jù)說Intel過去這些年一直在和微軟合作對新功能做打磨。

另外Intel也在與Epic合作，“現(xiàn)在我們的獨立GPU能夠運行虛幻引擎5”。“產(chǎn)品發(fā)布時，我們還將更新我們的用戶控件，幫助玩家利用AI輔助虛擬攝像頭、游戲高光時刻捕捉、直播拍攝等技術。這些技術將使用我們的高性能與高質(zhì)量的硬件編碼器?！?/span>

在特性支持上尤為值得一提的是XeSS(Xe Super Sampling)，這是個類似于DLSS超分辨率技術，即將低分辨率的畫面通過深度學習，來合成高分辨率渲染質(zhì)量的畫面。有關英偉達DLSS技術，此前我們多次撰文提到過。說XeSS和DLSS更接近(而不是AMD的FSR)，是因為Intel大致解釋提到XeSS原理是藉由畫面中的臨近像素，以及過去幀進行運動補償，來重建子像素細節(jié)。該過程需要通過神經(jīng)網(wǎng)絡進行，和英偉達的二代DLSS是比較類似的。

這種操作顯然就是由Xe核心中的XMX做硬件加速的。Intel在會上也演示了1080p到4K畫面，與原生4K分辨率渲染的比較，效果看起來還不錯。似乎在光線追蹤之外，超分辨率技術也已經(jīng)成為GPU廠商的技術必爭之地了。

比較有趣的是，Intel計劃把XeSS推到Xe GPU以外(這一點就比較像AMD了)，“包括競爭對手的產(chǎn)品”?！拔覀兺ㄟ^用DP4a指令來實現(xiàn)這一點，該指令已經(jīng)用于各種硬件產(chǎn)品?！薄斑@會將XeSS帶給數(shù)以百萬計的游戲玩家。”據(jù)說有不少“早期游戲開發(fā)者”已經(jīng)開始采用XeSS?！俺跏糥MX版本的SDK將于本月面向軟件廠商推出，DP4a版本則將于今年晚些時間推出?！?/span>

02 Ponte Vecchio，

第一個MCM GPU

此前我們撰文談到過，GPU越做越大，已經(jīng)接近光刻機可處理的rectile limit，那么GPU未來的發(fā)展方向極有可能是走向chiplet式的MCM(multi-chip module)形態(tài)方案的。只不過GPU要應用MCM，仍然有不小的技術難度。AMD和英偉達此前都在這方面做過努力。

現(xiàn)在看來最早推MCM型GPU的，似乎是Intel，也就是Intel這次花了相當大篇幅解釋的、采用Xe-HPC架構、面向數(shù)據(jù)中心、主要針對AI和HPC工作負載的Ponte Vecchio。Intel說這顆芯片的實現(xiàn)，在難度上堪比登月計劃。

現(xiàn)在面向數(shù)據(jù)中心的GPU、FPGA、AI芯片產(chǎn)品，在發(fā)布會上都喜歡用PPT來吊打Intel至強處理器。在算力上用更偏專用的芯片來吊打通用處理器，聽起來是不夠公平的。不過從行業(yè)走向來看，Intel也應該早就發(fā)現(xiàn)，CPU在數(shù)據(jù)中心的重要性已經(jīng)大不如前了。即便這次的Sapphire Rapids新增了AMX以及各種專門的加速單元，數(shù)據(jù)中心作為Intel的主場，推更專用的芯片也是勢在必行的。

Raja Koduri也在講話中特別談到了這一點。所以Xe-HPC或者說Ponte Vecchio的使命便是極大程度的填充這其中的空白(這次報道中不曾提及的Intel新發(fā)布的IPU基礎設施處理器，其實也有這樣的使命)。君不見英偉達如今在數(shù)據(jù)中心已經(jīng)賺到盆滿缽滿了嗎?

上面這張圖的藍色曲線表示Intel處理器，綠色表示“業(yè)內(nèi)最好的”(英偉達?)，在HPC、AI、內(nèi)存帶寬方面都存在著歷史上的差距(也就是之前每逢處理器芯片，必被吊打的局面)。而Xe是Intel決心領先行業(yè)的GPU架構。那么我們就來看看Intel的Xe-HPC架構，與Ponte Vecchio芯片。

和前文談到的Xe-HPG一樣，Xe-HPC也以Xe核心為GPU的基本構成單元。不過在Xe核心構成上有差別。前文談到，Xe-HPG Alchemist每個核心是16個矢量引擎和16個矩陣引擎，在Xe-HPC上則是8個矢量引擎和8個矩陣引擎(XMX)。但從單引擎可處理的數(shù)據(jù)來看，其量級是不同的。Xe-HPC核心中的單個矢量引擎每周期可處理512bit數(shù)據(jù)——是Xe-HPG的2倍;而每個矩陣引擎，“8深度脈動陣列”，每周期處理4096bit數(shù)據(jù)(8組512bit寬矢量運算)，則是Xe-HPG的4倍。顯然Xe-HPC核心極大加強了XMX。似乎比隔壁英偉達的配方在AI算力上明顯更為足料。

Xe核心構成大體與Xe-HPG是一樣的，即主要是ALU、cache、load/store邏輯單元。這里Intel給出了一些更具體的數(shù)字，包括load/store操作是每周期fetch 512bit數(shù)據(jù)——應該比隔壁Xe-HPG要寬;與此同時L1-D cache尺寸為512KB，Intel表示這是行業(yè)內(nèi)最大的?！癓1 cache也可通過軟件配置作為暫存區(qū)，即Shared Local Memory(SLM)”。

矢量引擎對于數(shù)據(jù)格式每周期的操作支持，包括了256 FP32、256 FP64、512 FP16;XMX則為2048 TF32、4096 FP16、4096 BF16、8192 INT8。Intel特別強調(diào)說，Xe核心能夠共同發(fā)射(co-issue)指令，“超越這些單一的每個時鐘周期運算次數(shù)”。Intel函數(shù)庫和內(nèi)核利用這項特性可實現(xiàn)Xe核心更高的性能。

多個Xe核心組成slice。一個Xe-HPC的slice是由(最多)16個Xe內(nèi)核構成的，比前文談到的Xe-HPG規(guī)模大出了很多;總共也就是8MB L1 cache。Slice中強調(diào)了Xe-HPG圖形計算的一些固定渲染功能單元;每個核心依然搭配1個光追單元，所以一共是16個光追單元——前面也已經(jīng)提過光追單元用于光線遍歷、包圍盒相交與三角形相交運算。這對專業(yè)視覺應用會有價值。

此處的Hardware Context能夠讓GPU并行執(zhí)行多應用，“不需要開銷比較大的基于軟件的上下文切換”。“這也極大增加了云上GPU的利用率?！盜ntel并沒有說這種硬件上下文切換的具體實現(xiàn)。

多個slice理論上應該構成了完整的GPU，不過Intel在此處稱其為stack。似乎在整個GPU芯片上是一片die，或者一片chiplet的概念。

每個stack具體是4個slice：也就是說一個stack內(nèi)(最多)會包含64個Xe內(nèi)核、64個光追單元、4個Hardware Context。和Xe-HPG一樣，stack這一級也就有了L2 cache(容量未知)。另外作為面向數(shù)據(jù)中心的GPU，外圍要擴展出4個HBM2e控制器，還有“8個Xe Link”——是Intel專用于GPU之間連接的方案。媒體引擎部分，Intel依然沒有細說其規(guī)格。Xe Memory Fabric連接了Copy Engines、媒體引擎、Xe Link模塊、HBM、PCIe組成部分。

MCM的魔法就在Intel的多stack方案中體現(xiàn)出來了。用Intel的EMIB封裝技術把兩個stack(也就是兩個chiplet/die)連起來——EMIB封裝技術此前我們也多有介紹了，這是一種不同于臺積電CoWoS用interposer硅中介來做die與die之間2.5D封裝的方案，而是用嵌入在封裝基板中的silicon bridge，以更低的成本實現(xiàn)die之間的互聯(lián)，在效率上又會顯著的高于直接從封裝基板走線的方案。

Intel表示，“我們將每個stack上的Xe Memory Fabric直接連起來，這樣也就在stack之間實現(xiàn)了統(tǒng)一一致性存儲，這對軟件而言很重要?！睒I(yè)界的第一個MCM GPU也就出爐了。上面這張圖展示了2-stack方案。未知這種彈性擴展方案的延遲表現(xiàn)如何，不過這樣的堆料方法的確能夠達成顯著更高的性能水平。

在多stack構成GPU以后，對數(shù)據(jù)中心而言，就涉及到GPU之間的連接了。Intel對此的方案是Xe Link，“支持load/store，大量數(shù)據(jù)遷移和同步語義;包含一個8-port switch，不需要額外的組件，就能在一個節(jié)點內(nèi)實現(xiàn)至多8個GPU完全互聯(lián)”。Intel表示，OAM-Universal BaseBoard加速模塊設計規(guī)范下，對AI一類大型負載普遍可以用8個GPU的方案。不知道互聯(lián)效率如何，Intel也沒有在會上公布帶寬等方面的具體數(shù)據(jù)。

接下來就該到產(chǎn)品層面了，即這回Architecture Day展示的重頭戲Ponte Vecchio芯片。當Ponte Vecchio首席架構師將這枚芯片展示出來的時候，我們還是對其芯片尺寸表示相當震驚：其上超過1000億晶體管，部分用到了臺積電N5工藝，還記得之前的游戲GPU用的是臺積電N6嗎?不過事實上，基于2.5D/3D封裝的不同chiplet用上了不同的制造工藝，據(jù)說這一顆芯片總共涉及到5種不同的制造工藝。

這顆芯片的開發(fā)，不只是前文提到的Xe核心及其構成方法，還涉及到各種新架構和新設計，乃至新工具的開發(fā)，“我之前從未在一款產(chǎn)品中做過這么多的新東西”，“Ponte Vecchio是我在30年的芯片開發(fā)生涯中開發(fā)的最復雜的芯片。”這是Intel Ponte Vecchio首席架構師Masooma Bhaiwala說的。最終目標是令其跑起來“就和monolithic芯片一樣”，畢竟這是MCM/chiplet式的設計。

Intel把這枚芯片的構成切分為不同的“tile”，有compute tile、rambo tile、XeLink tile、HBM tile、Base tile等。Intel還特別提到，除了以EMIB的封裝方式連接HBM內(nèi)存(以及前面提到Xe-HPG本身也在stack之間做EMIB的die-to-die連接)，Ponte Vecchio也用上了Foveros 3D封裝方案，F(xiàn)overos封裝此前我們也撰文仔細探討過。加上不同tile用上了5種制造工藝，有的是臺積電造，有的是Intel自己造，這套方案的復雜度也就可想而知了。

從這張圖似乎很難推斷究竟是哪個tile疊在哪個tile上面，Intel只是說creates the 3D stacking of active silicon for power and interconnect density。Intel在此也特別分享了有關這顆芯片實現(xiàn)上的一些技術挑戰(zhàn)，比如由于tile的多樣和復雜性，F(xiàn)overos的位置、floorplan需要在更早期的階段就定稿。Ponte Vecchio芯片的Foveros連接數(shù)也比以往Intel的設計高出2個數(shù)量級。另外，測試驗證也因此很復雜，所以需要實時開發(fā)出更多的工具、方法等等。

這顆芯片上的Compute tile，也就是計算部分屬于芯片核心，每個tile包含8個Xe核心，總共4MB L1 cache(似乎和前面談到Xe-HPC可配置每16個Xe核心構成1個slice、8個slice構成一個stack的方法不大一樣，是某種彈性化方案?)。Compute tile是用臺積電N5工藝制造的。

做Foveros 3D封裝時，這部分tile的bump間距是36μm。從Intel以前公布的數(shù)據(jù)來看，36μm的間距應該是第二代Foveros，相比初代的連接密度翻倍。所以說Compute tile事實上同時濃縮了臺積電最先進的制造工藝，和Intel最先進的封裝工藝，也算是IDM 2.0戰(zhàn)略的大成之作了吧。

Base tile部分是負責連接的，基于Intel 7工藝制造(也就是之前的10nm Enhanced SuperFin)，其中包括各種I/O和高帶寬組成部分，包括L2 cache，也涉及到PCIe Gen 5、HBM2e、(tile-tile的)MDFI高速互聯(lián)、EMIB橋等。Intel表示這個base tile是Ponte Vecchio芯片上存在最大設計挑戰(zhàn)的一部分。

另外還有Xe Link tile，也就是負責多GPU互聯(lián)的部分，是基于臺積電N7工藝制造，最高90G的SerDes支持。其他部分tile，Intel并未多做介紹。

Ponte Vecchio整體上，A0芯片(RTL開發(fā)完成后的首個硅流片?)所能達成的性能水平包括>45 TFLOPS的單精度算力(參考英偉達安培架構A100 GPU的FP32標稱算力19.5 TFLOPS)，>5 TBps的Memory Fabic帶寬，以及>2 TBps的連接帶寬(應該是指內(nèi)部tile間的高速連接)。這組數(shù)字表明各部分tile在實現(xiàn)上都是比較“健康”的。

Raja有稍稍提到Ponte Vecchio GPU實際性能表現(xiàn)，“基于Ponte Vecchio和Sapphire Rapids的ResNet-50推理性能推圖，超過每秒43000張圖，超過市面上能見到的標準。而在訓練方面，我們還處于早期階段，初步測試顯示Xe HPC的計算、內(nèi)存和互聯(lián)帶寬已經(jīng)具備訓練最大型數(shù)據(jù)集和模型的能力。我們現(xiàn)在看到Ponte Vecchio性能是每秒超過3400張圖片?！?/span>

這個表達還是比較模糊，尤其是在沒有其他測試環(huán)境、沒有價格也沒有功耗數(shù)據(jù)的情況下。不過這么足的堆料做到性能上的領先也是應該的。

Ponte Vecchio最終形態(tài)自然是PCIe板卡，外加Xe Link互聯(lián)bridge，Xe Link把多個GPU連起來。Raja表示OEM合作伙伴會提供多種加速計算系統(tǒng)——比如像上圖這樣的，系統(tǒng)方案中配套的CPU當然也就是Sapphire Rapids了。

03 oneAPI，Intel的

XPU野心擴張計劃

最后我們從硬件層面簡單總結(jié)一下Intel的Xe GPU新品。其實就最終產(chǎn)品層面，仍有很多信息是未公開的，畢竟Architecture Day活動是以談架構技術為主的。無論是Xe HPG Alchemist架構的高性能游戲GPU，還是面向數(shù)據(jù)中心HPC、AI的Xe HPC新品Ponte Vecchio芯片，都能表明Intel在GPU方向上投入了巨大的人力和物力。

Intel這次定的起點很高，Alchemist游戲GPU明年一季度就問世，GPU領域主流的光線追蹤、XeSS(超分辨率)，以及DirectX 12 Ultimate諸多特性就已經(jīng)準備就緒，而且在堆料上看起來一點也不比英偉達節(jié)約。

而面向數(shù)據(jù)中心的Ponte Vecchio堆料和工藝技術的采用，甚至到了有些令人咂舌的程度。不談Xe核心在矩陣引擎、cache堆料上的充沛，感覺一顆芯片用5種制造工藝，以及2.5D+3D封裝齊上，還是業(yè)界第一顆MCM GPU——這些配置面前，1000億晶體管這種數(shù)字都是不夠看的。怪不得Intel稱其實現(xiàn)難度堪比登月計劃。

就這樣的投入來看，Intel對GPU型產(chǎn)品寄予的期望，應該是完全不落于其傳統(tǒng)項目CPU之后的。畢竟如文首所述，如今的行業(yè)現(xiàn)狀和格局已經(jīng)完全不像從前了。隨摩爾定律的放緩，CPU在各類設備上的重要性都在下降，這是個XPU崛起的時代。只不過以英偉達如今在游戲與數(shù)據(jù)中心領域的地位，要從其口中分得一杯羹，也并不是件易事。

最后的最后，我們從Intel的oneAPI開發(fā)生態(tài)布局上可以看出一些端倪。Intel的XPU策略強調(diào)同一套開發(fā)生態(tài)，也就是Intel的oneAPI——這個軟件平臺的主旨是用一套API實現(xiàn)不同硬件性能埠的對接。Intel作為多種不同處理器類型的制造商，而且在CPU市場仍占據(jù)統(tǒng)領地位，推行這套生態(tài)還是有一定的優(yōu)勢;雖然當前GPGPU也還是英偉達的主場。

Intel在這次會上說軟件開發(fā)者以往“必須用OpenCL、CUDA等不同的專業(yè)語言重寫需要加速的代碼。”所以oneAPI提供“開放、基于標準、跨架構、跨矢量的統(tǒng)一軟件棧?！辈贿^oneAPI事實上仍然是比較年輕的平臺，首個版本發(fā)行至今時間也不久。

oneAPI指定了通用的HAL(硬件抽象層)、數(shù)據(jù)并行編程語言，以及解決數(shù)學、深度學習、數(shù)據(jù)分析和視頻處理領域的各種性能庫。更具體的本文就不再多談了。

比較值得一提的是“已經(jīng)有面向英偉達GPU、AMD GPU和Arm CPU的DPC++和oneAPI函數(shù)庫實施方案?！盜ntel的說法是，“獨立軟件開發(fā)商、操作系統(tǒng)開發(fā)商、終端用戶和學術界已經(jīng)在廣泛采用它?！?/span>

Intel公布說目前多個領域的軟件開發(fā)商已經(jīng)推出了超過300個基于oneAPI統(tǒng)一編程模型的應用;現(xiàn)有開發(fā)者超過20萬;而且“我們有超過80個關鍵HPC應用、AI框架和中間件，采用了oneAPI，從現(xiàn)有僅基于CPU、或者是基于CUDA的GPU實施方案上快速移植。”

除了AI以外，oneAPI也有Rendering Toolkit、IoT Toolkit、HPC Toolkit、BASE Toolkit之類的各種構成。比如Rendering Toolkit中可做光線追蹤的組成部分(Embree光線追蹤庫)，Intel介紹說oneAPI Rendering Toolkit能應用于第三方處理器，比如說蘋果M1。更多oneAPI的特性，幾段話也很難介紹完。

不過感覺這些已經(jīng)能夠表現(xiàn)出Intel在生態(tài)構建上，入侵競爭對手市場的野心。此前Intel曾表達過oneAPI的“目標”是實現(xiàn)開放、跨平臺、跨架構的開發(fā)與執(zhí)行。其推進動作和速度還真是相當快。

美國阿貢國家實驗室及Aurora項目已經(jīng)在全面啟用包括Sapphire Rapids、Ponte Vecchio、傲騰在內(nèi)的Intel硬件產(chǎn)品，以及oneAPI。一個Aurora blade設備包含2個Sapphire Rapids CPU和6個Ponte Vecchio，主要用于HPC和AI。Intel這家公司如今的運轉(zhuǎn)速度感覺比過去快了非常多。

本站僅提供存儲服務，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權內(nèi)容，請點擊舉報。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区