作者|油醋
郵箱|zhuzheng@pingwest.com
“不作詩,也沒有時間作詩,它要深入到各行各業(yè)?!比A為云CEO張平安給迷霧中的盤古大模型定了調。
7月7日東莞,華為云在開發(fā)者大會上發(fā)布盤古大模型3.0。關于華為做大模型的方向,它已經做了什么,它的技術架構,答案逐漸清晰。
這么多大模型里,盤古看起來是與行業(yè)連接最緊密的,緊密到甚至讓人感覺它是難得從行業(yè)里抽身請假,來發(fā)布會亮了個相。
這是一個不做C端的大模型,而在B端的一些具體場景中,它宣稱自己已經是一位滿級選手。
7月6日,華為輪值董事長胡厚崑在世界人工智能大會上預告了盤古大模型3.0的發(fā)布。同日的另一件事是,盤古氣象大模型在高分辨率全球 AI 氣象預報系統(tǒng)方面的研究成果在《Nature》正刊發(fā)表。這是近年來中國科技公司首篇作為唯一署名單位發(fā)表的《Nature》正刊論文。
今年5月,盤古氣象大模型提前10天預測到了臺風瑪娃的路徑。這件事交給數值預報的話,需要3000臺高性能計算機花5個小時。盤古氣象大模型只花了10秒鐘,用了一臺服務器,一張卡。
相比傳統(tǒng)的數值預報,盤古氣象大模型在天氣預測速度上提升了1萬倍,并且是首個精度超過傳統(tǒng)數值預報方法的AI模型。歐洲中期預報中心和中央氣象臺等都在實測中發(fā)現(xiàn)盤古預測的優(yōu)越性。
《Nature》審稿人對該成果給予高度評價:
“華為云盤古氣象大模型讓人們重新審視氣象預報模型的未來。”
盤古氣象大模型的模型開發(fā)摒棄了無法完全處理3D氣象信息的2D神經網絡,采用三維神經網絡(3D Earth-Specific Transformer),參數量為2.56億。
在此之前,這樣一個行業(yè)大模型的訓練首先要克服巨大的數據工程。盤古3.0喂進去了43年的天氣歷史數據,以及200tb的海量數據。
行業(yè)大模型是一個工程學問題。在大模型推理這樣的辦法出現(xiàn)之前,這些繁瑣的事精也需要被分擔。比如3000太高性能計算機,或者大量人力。
在貨運鐵路上,每天有無數高速攝像機以一節(jié)車廂80張的高頻速度對經過的貨車底部拍照,然后傳回列車檢測員的電腦屏幕。他們被要求每秒需審閱1張圖,1000列貨車會生產出400萬張照片,需要260雙眼睛來消化巨大的信息量。
列車檢測員,一個急需減負的工種。
這樣通過通過高速攝像來動態(tài)采集列車車底配件、車體側部等部位圖像,實時判別貨運列車是否存在故障的貨運鐵路巡檢模式被稱為TFDS(貨車運行故障動態(tài)圖像檢測),基于TFDS預訓練大模型和超過360萬張以上的鐵路貨車圖像,華為在盤古3.0的基礎上訓練出了鐵路大模型。
這個鐵路大模型現(xiàn)在已經可以精準識別67種貨車車型,可識別的故障種類達到430種以上。其無故障圖片篩除率達到了95%,對于列車檢測員來說這意味著原本400萬張的工作量,現(xiàn)在減到了20萬張。
華為云人工智能領域首席科學家田奇指出了通用大模型落地行業(yè)的三個挑戰(zhàn):
通用性強,但專業(yè)性弱。
知識雖多,但技能不足。
價值挖掘快,但數據安全難保障。
為了解決這三層問題,華為的大模型體系設計成三層架構:L0(基礎大模型)、L1(行業(yè)大模型)和L2(場景模型)。
以盤古鐵路大模型為例,TFDS預訓練大模型的開發(fā)過程就是L1層,而在更具體的應用層面,比如故障狀態(tài)分類、關鍵點檢測則是L2層。
L2層是X個,也就是無數個更細化的具體場景模型。比如氣象領域的臺風預測,或是金融行業(yè)的銀行網點助手等。重點是開箱即用。
L1層是包括氣象、鐵路以及政務、金融等行業(yè)在內的N個行業(yè)大模型,在行業(yè)公開數據以及企業(yè)自有數據的支持下幫助企業(yè)訓練出自己的大模型。盤古在這一層為客戶提供了公有云部署、云專屬資源池以及HCS私有化部署三種部署方式。
為L1、L2層提供基礎能力的則是自然語言大模型、多模態(tài)大模型、視覺大模型、預測大模型以及科學計算大模型,這5個基礎大模型。在L0和L1層的基礎上,華為云提供了大模型行業(yè)開發(fā)套件,為企業(yè)以自有數據訓練自己的專屬行業(yè)大模型提供途徑。
這一套三層架構也叫做5+N+X。
L0層內,盤古3.0包含一個3萬億tokens的訓練數據集,和包括問答、生成、視覺等8個領域100多種能力在內的能力集。但基礎大模型與能力集以及與數據集都是分別解耦的,這意味著在實際訓練過程中,數據集可以在100億參數或者1000億參數的大模型之間快速轉換?;A大模型層內的三層結構中間更靈活的按需組合,可以更大限度發(fā)揮基礎大模型的通用能力。
除此之外,盤古3.0提供了100億、380億、710和千億參數的不同尺寸基礎大模型,以滿足不同客戶的需求。
這個5+N+X的三層架構在縱向上追求擊打場景的精準度,在橫向上講究靈活。
模型能力因為行業(yè)而具像化的同時,底層算力的基礎在支撐著盤古大模型能夠完美的匹配企業(yè)的需求。
昇騰和鯤鵬兩款芯片為基礎的AI算力云平臺配合異構計算架構CANN,結合全場景AI框架昇思以及全流程MLOps的機器學習平臺Modelarts所形成的全棧能力,在昇騰云上大模型的訓練效率可以達到業(yè)界主流的1.1倍。
并且除了自研的AI框架昇思,華為云也可以支持Pytorch、TensorFlow等其他主流的AI框架。在蕪湖AI算力中心之外,華為云也在貴安和烏蘭察布兩個AI算力中心上線了昇騰AI云服務。算力可達到2000p FLOPS(200億億次浮點),千卡訓練可連續(xù)維持超1個月。
華為是最早開始大模型研究的國內企業(yè)之一。2021年華為云拿出了5個基礎大模型,去年迭代到盤古2.0后,氣象、礦山等行業(yè)大模型順勢而出,此次盤古3.0公布的時候,國內的大模型競爭已經白熱化。而在國內公有云市場已經升至第二的華為云,技術能力也開始做厚。
不做詩,堅持“AI for Industries”,后發(fā)先至的盤古3.0并不著急。
它的戰(zhàn)場和優(yōu)勢不在于做一個“Chat”,而是別處。比如基于無線基站而圍攏起的礦山生態(tài),比如全球300多條城市軌道線路和總長130000多公里的鐵路,比如一個制造企業(yè)的身份。
聯(lián)系客服