看點:英偉達GPU加持:小米遠(yuǎn)場語音識別半年提升至93%,圖像識別率提升5倍。
近期小米官方宣布,截止到7月底,小米AI助理小愛同學(xué)月活躍設(shè)備超過3000萬臺,今年7月小愛同學(xué)喚醒超10億次,累計喚醒超50億次。圍繞小愛同學(xué),小米AI能力已經(jīng)全面落地小米和小米生態(tài)數(shù)百款產(chǎn)品,包括小米手機、小米電視、智能音箱、兒童手表、翻譯機等。
小米以及小米生態(tài)的眾多智能設(shè)備,形成了AI在推理端的大量應(yīng)用。小米也依托英偉達GPU,圍繞語音、圖像等AI應(yīng)用打造了自身的算力平臺,構(gòu)建自己的AI能力。
近期,我們與小米人工智能與云平臺語音組負(fù)責(zé)人王育軍和小米云服務(wù)負(fù)責(zé)人李海峰進行深入溝通,看看小米如何構(gòu)建自己的GPU平臺,以及如何推動AI應(yīng)用的不斷優(yōu)化。
小米從2016年開始搭建深度學(xué)習(xí)平臺,最初在選擇服務(wù)器方案時,就選擇了英偉達的GPU。小米又結(jié)合圖像等3種典型AI應(yīng)用,最終鎖定在英偉達Tesla P40/M40/P4系列GPU,包括后來英偉達推出的Tesla V100上。王育軍介紹道,目前英偉達Tesla V100、Tesla P40等GPU都用于AI算法模型的訓(xùn)練,Tesla P4則用于語音等線上的AI推理。
▲小米人工智能與云平臺語音組負(fù)責(zé)人王育軍
在小米內(nèi)部,所有的AI能力基本都在小米人工智能與云平臺部完成,它可謂是小米的“大腦”,已具備語音技術(shù)、人臉識別、圖像識別、機器翻譯等能力,驅(qū)動著小米以及生態(tài)鏈眾多智能硬件的智能化交互。
比如王育軍所在的團隊是小米人工智能與云平臺部下的語音組,該團隊成立于2017年2月份,經(jīng)過近一年半的發(fā)展,目前小米語音組已經(jīng)形成語音識別、聲紋識別、語音喚醒、語音降噪以及語音合成等AI能力,這些能力都被集成到小米的AI助理小愛同學(xué)中。
▲小米AI音箱
王育軍介紹了他們近一年來取得的成果,比如目前電視場景的語音識別已經(jīng)達到98%的句正確率,在聲紋識別的性別識別方面,目前準(zhǔn)確率也達到了97%。
去年7月份,小米推出小米AI音箱,當(dāng)時所使用的語音技術(shù),除了NLP(自然語言處理)外,前端的信號處理,后端的語音合成都是整合其他家的技術(shù)。王育軍指出,隨著小米這些AI技術(shù)相繼成熟,也會上線和其他家的技術(shù)共同工作。
李海峰所負(fù)責(zé)的小米云服務(wù),最初是面向消費者提供圖片的備份、存儲等云服務(wù),后來也逐漸將人臉識別、圖像識別、OCR(光學(xué)字符識別)、表情識別等能力集成進來,將圖像的能力落地到小米手機、小米電視等產(chǎn)品中。
最初小米AI音箱剛發(fā)布的時候,它采用了近10家廠商的語音識別技術(shù),包括獵戶星空和思必馳等,整合各家的技術(shù),誰的語音識別效果好就用誰家的。
關(guān)于這背后的工作邏輯王育軍介紹道,“針對語音交互,反應(yīng)要快。對于同一個任務(wù),我們將識別最快、識別最準(zhǔn),采信為最終識別結(jié)果?!?/span>
等智能音箱運轉(zhuǎn)起來后,小米又通過海量的用戶數(shù)據(jù)不斷迭代,小米語音識別的優(yōu)勢就呈現(xiàn)出來。他透露道,目前語音識別主要使用的是小米和獵戶星空的技術(shù)。
語音識別也是小米目前打造最為成功、最為典型的AI應(yīng)用。相比市面其他語音識別團隊,小米語音團隊成立時間較晚,但憑借開源框架、數(shù)據(jù)的優(yōu)勢以及英偉達GPU的助力,目前后發(fā)的優(yōu)勢已經(jīng)呈現(xiàn)。正如王育軍所言,“盡管團隊成立比較晚,但先進的算法框架都使用了”。
最初,小米語音團隊基于開源框架來打造自身的語音識別模型,通過開源框架來保證算法的先進性,并通過提交自身優(yōu)化好的模型來反向回饋開源社區(qū)。
語音識別模型的上線大致經(jīng)歷兩個階段,第一個階段是在云端進行訓(xùn)練,第二個階段是將訓(xùn)練好的模型部署在服務(wù)器上,根據(jù)用戶的終端請求完成推理工作。
在模型上線初期,小米基于開源框架,從場景需要的基礎(chǔ)數(shù)據(jù)出發(fā),復(fù)用產(chǎn)品數(shù)據(jù)或者進行數(shù)據(jù)仿真,通過對初期數(shù)據(jù)的訓(xùn)練,搭建起語音識別的基礎(chǔ)能力。但在去年6月份上線之初,小米遠(yuǎn)場語音的識別率僅有60%左右。
然后,小米語音團隊依托電視場景10萬小時的語音數(shù)據(jù),花了2周進行數(shù)據(jù)抽取,又花了2周做數(shù)據(jù)的自動標(biāo)注,從中標(biāo)注出八千小時的語料數(shù)據(jù)。王育軍笑稱,只是這一步就直接使語音識別正確率達到93%,可謂“得電視者得語音識別”。
隨著模型上線之后,用戶的實際需求也隨之而來,小米語音團隊通過對新產(chǎn)生的數(shù)據(jù)進行自動標(biāo)注,經(jīng)過近兩個月的迭代,就可以做出一個精致的語音識別模型。
王育軍繼續(xù)介紹到,這時再拿出兩千小時的語料進行人工標(biāo)注,經(jīng)過近半年的迭代,小米的語音識別體驗就達到更好了,目前在智能音箱場景下可以句正確率可達93%,與阿里、百度處在同一陣營。
面對龐大的推理側(cè)AI應(yīng)用,小米在算力上也面臨巨大挑戰(zhàn)。他談道,隨著數(shù)據(jù)體量的增加,算法架構(gòu)上的瓶頸就呈現(xiàn)出來,比如數(shù)據(jù)存儲會造成線上推理的瓶頸。后來,他們將TensorRT(英偉達推出的一種性能神經(jīng)網(wǎng)絡(luò)推理引擎)部署到基于Tesla P4的服務(wù)器上,并對語音識別算法進行改寫,通過架構(gòu)的優(yōu)化,把算力釋放出來?!靶Ч戎疤嵘?倍,目前我們GPU的利用率能夠達到70%”,王育軍表示。
通過語音識別模型的打造,他總結(jié)道語音識別需要從3各方面著手:在算法研究層面,要保持對最新技術(shù)的追蹤,目前小米能夠保證每年2片的前沿論文研究;在數(shù)據(jù)層,小米有眾多場景的數(shù)據(jù),這是小米最為明顯的優(yōu)勢;在架構(gòu)算力層,小米還需要進一步對算法框架進行優(yōu)化,充分釋放GPU所帶來的算力。
與語音識別不同的是,小米云服務(wù)的人臉識別技術(shù)引入較早,最初是用CPU來做的推理任務(wù),后來小米進行機房改造,部署英偉達的GPU,也改用GPU來做圖像識別業(yè)務(wù)。
2015年,小米云服務(wù)就在MIUI 7相冊功能中較早引入人臉識別技術(shù),可以自動將類似的面孔的照片進行分類呈現(xiàn)。近年來,小米云服務(wù)在相冊中不斷上線了圖片搜索、圖片分類、OCR、表情識別等AI應(yīng)用。目前,小米云服務(wù)已存儲250PB數(shù)據(jù),采用深度學(xué)習(xí)在系統(tǒng)相冊中做人臉識別也日趨完善。小米云服務(wù)負(fù)責(zé)人李海峰表示,未來小米云服務(wù)希望每月上線一個全新算法,讓AI深入生活。
▲小米人臉識別技術(shù)應(yīng)用
作為具體業(yè)務(wù)部門,小米云服務(wù)在使用算力平臺時更注重業(yè)務(wù)的匹配性和成本考量。比如像OCR、電視場景的圖像識別對時延要求高,小米會更多選用GPU來做AI推理。
▲小米云服務(wù)負(fù)責(zé)人李海峰
小米云服務(wù)負(fù)責(zé)人李海峰談到,目前通過英偉達GPU的加持,相比CPU,小米在OCR識別速度上大概提升10倍,在電視場景的明星識別速度上提升了3~5倍。
通過英偉達Tesla P4在小米AI推理端的應(yīng)用,他總結(jié)道,P4有兩大核心優(yōu)勢,一方面是使AI應(yīng)用推理的延遲變短,增強用戶的體驗感;另一方面P4功耗比較低,使得服務(wù)器的整體成本得到下降。
在AI推理應(yīng)用方面,目前的算力方案大致有3個流派,分別是CPU、FPGA、GPU。對于GPU相對其他兩個流派的優(yōu)勢,王育軍表達了自己的看法。
目前CPU在推理應(yīng)用方面已是過去時,它的算力不足,需要部署大量服務(wù)器,運維成本太高,正逐漸被淘汰掉。
第二個流派是FPGA,比如國內(nèi)百度和科大訊飛也有部分語音應(yīng)用用FPGA的方案來做。FPGA使用得當(dāng)可以節(jié)省成本,但其局限在于需要定制化、迭代性差,F(xiàn)PGA的開發(fā)周期通常要18個月,另外如果推理端的應(yīng)用較為多元,F(xiàn)PGA的算力未必能能夠充分釋放出來,會導(dǎo)致應(yīng)用成本的升高。
第三個流派就是GPU。目前小米使用英偉達的Tesla P4 GPU來做推理,王育軍稱,英偉達的GPU最為通用,它就是為神經(jīng)網(wǎng)絡(luò)計算而誕生的,天然支持大量開源框架,并且買來只需要很少改動就可以使用。它的效果在神經(jīng)計算上比CPU快24倍,整體效果實測下來要比CPU快3倍。
將GPU應(yīng)用在AI推理側(cè),除了延遲低的優(yōu)勢外,王育軍還從運維的角度談到,相對CPU服務(wù)器而言,1/4數(shù)量的GPU服務(wù)器即可完成等量的AI推理計算任務(wù)的處理,使服務(wù)器硬件成本及數(shù)據(jù)中心空間,能耗等整體的TCO及管理成本都有很好的節(jié)省。
隨著推理端需求越來越大,王育軍稱小米會部署更多的GPU服務(wù)器來提供足夠的算力;另一方面會重點優(yōu)化算法架構(gòu),將服務(wù)器的計算量降下來,提升服務(wù)器的處理能力。
AI芯片系列課第二季正式啟動!云天勵飛、云知聲、安路信息、智芯原動、Imagination的5位技術(shù)大牛將主講端側(cè)AI芯片的架構(gòu)創(chuàng)新與應(yīng)用落地。戳開課程表報名!
聯(lián)系客服