宅客頻道編者按:隨著黑產(chǎn)鏈上的攻擊者們手法愈發(fā)快且專,除了在傳統(tǒng)領(lǐng)域與之進(jìn)行對(duì)抗,AI似乎也被當(dāng)做靈活性和對(duì)抗性極佳的武器引進(jìn)。古語(yǔ)講“以牙還牙,以眼還眼”,而在與這些黑產(chǎn)對(duì)抗過(guò)程中,安全團(tuán)隊(duì)所面臨的,或者說(shuō)需要考慮的又有哪些呢?
騰訊安全平臺(tái)部總經(jīng)理?xiàng)钣略?017騰訊安全技術(shù)國(guó)際峰會(huì)中,以“AI技術(shù)在信息安全領(lǐng)域的應(yīng)用”為主題,分享了AI與安全結(jié)合,進(jìn)入安全領(lǐng)域下一階段所要思考的一些事情。
下面為楊勇在現(xiàn)場(chǎng)的演講,宅客頻道編輯在不改變?cè)獾幕A(chǔ)上做了適當(dāng)?shù)膭h減和整理。
首先做一下自我介紹,我從事安全行業(yè)的工作已有十幾年,在安全攻防領(lǐng)域,我是一個(gè)老兵,但是在AI安全相關(guān)的領(lǐng)域,包括AI安全,我還是一個(gè)新人。其實(shí)這個(gè)領(lǐng)域很多人真正開(kāi)始研究,并且付諸于工業(yè)實(shí)踐的時(shí)間都不長(zhǎng)。這是新興的領(lǐng)域,所我今天與大家分享的內(nèi)容,更多是作為個(gè)人、安全平臺(tái)部的團(tuán)隊(duì)以及騰訊,在一段時(shí)間內(nèi)的實(shí)踐心得。
我個(gè)人判斷,這些心得并不會(huì)是AI安全領(lǐng)域最終的結(jié)論,或者是一把通向真理的鑰匙,但一定是有意義的視角。實(shí)際上,對(duì)于AI安全的發(fā)展來(lái)說(shuō),一切都是剛剛開(kāi)始。
下面我先給大家放一段視頻,我覺(jué)得這段視頻很好地詮釋了AI給我們帶來(lái)了什么。
這是ABB的一個(gè)機(jī)器人,這段視頻取材于2012年,不知道大家觀看這段視頻后的感受是什么,實(shí)際上給我個(gè)人的感受是,技術(shù)的演變會(huì)給我們帶來(lái)完全不一樣的感受。
從人類歷史的發(fā)展來(lái)看,人類能在地球上成為一個(gè)TOP級(jí)的物種,實(shí)際上經(jīng)歷過(guò)一個(gè)巨大變革,就是工業(yè)革命時(shí)代。在此之前,人類的體力并不優(yōu)于這個(gè)世界上的其他物種,但在工業(yè)革命以后,人類的體力已經(jīng)遠(yuǎn)遠(yuǎn)地超越了地球上的其他物種,為什么?
因?yàn)槿祟悡碛辛藱C(jī)械,這些機(jī)械給人們帶來(lái)了遠(yuǎn)超動(dòng)物的體力。比如說(shuō)我們可以造出200馬力,甚至300、500馬力的汽車,這些帶來(lái)了百年來(lái)人類突飛猛進(jìn)的發(fā)展。
人類還有一個(gè)重要的能力,就是腦力。在工業(yè)革命之后,人類的腦力發(fā)生了根本性的變化和變革。我覺(jué)得AI技術(shù)的發(fā)展,未來(lái)也會(huì)給人類帶來(lái)這樣一個(gè)變革。
大家試想一下未來(lái)的世界會(huì)是什么樣的?如果人類有了250倍馬力的體力,并且有250倍的人類現(xiàn)代智慧和計(jì)算能力的腦力,用這個(gè)250倍乘上另外的250倍,這就是我覺(jué)得AI可能會(huì)給我們帶來(lái)的變化。
當(dāng)然這些變化和對(duì)未來(lái)美好的預(yù)期也會(huì)帶來(lái)一些擔(dān)憂,就像一切新興事物出現(xiàn)以后,很多人會(huì)提出擔(dān)心。比如這個(gè)視頻當(dāng)中,兩個(gè)機(jī)器人拿著兩把日本的武士刀,他們可以做到刀尖和刀尖相抵而不錯(cuò)位,給大家的感受是像機(jī)器人在對(duì)著鏡子移動(dòng)??梢宰龅饺绱司珳?zhǔn)并且有力。而對(duì)比人類,會(huì)顯得我們的能力與他們簡(jiǎn)直無(wú)法相比,所以AI會(huì)不會(huì)給人類帶來(lái)很多威脅和風(fēng)險(xiǎn)?
這是之前在各大媒體上廣泛流傳的新聞報(bào)道,講的是在2008年的UBS,曾經(jīng)有無(wú)數(shù)的交易員,他們從事著股票交易和金融交易工作。在2016年,因?yàn)槿斯ぶ悄芎瓦\(yùn)算技術(shù)的發(fā)展,不再需要那么多人類的交易員了,所以他們所在的場(chǎng)地已沒(méi)有那么多交易員,變得空空蕩蕩。很多人根據(jù)這幅圖片得出結(jié)論,未來(lái)AI其實(shí)對(duì)人類構(gòu)成威脅。
但是好消息是什么?因?yàn)槲冶旧硪彩且粋€(gè)技術(shù)人員,所以我有一些刨根問(wèn)底的精神,我去找了一下這個(gè)文章的原始出處,表達(dá)的卻是另一種意思。他講的是曾經(jīng)2008年的時(shí)候金融非常繁榮、昌盛,所以UBS租用了很多席位去做交易,但2008年以后的金融危機(jī)導(dǎo)致其削減預(yù)算,所以搬到了更廉價(jià)的交易大廳,才空出了許多席位。雖然這是一個(gè)假消息,但并不能說(shuō)明他們的擔(dān)憂是多余的。
其實(shí)大家擔(dān)憂AI會(huì)搶去我們工作,這件事情可能發(fā)生也可能沒(méi)有發(fā)生,或者在某些領(lǐng)域正在發(fā)生。但作為安全行業(yè)來(lái)說(shuō),可以感受到AI帶來(lái)的一些實(shí)實(shí)在在的好處。比如傳統(tǒng)的安全領(lǐng)域常用的密碼鑒別用戶身份,隨著AI技術(shù)的到來(lái),諸如人臉識(shí)別的生物識(shí)別技術(shù)逐漸變成可能。
同時(shí),當(dāng)我們把機(jī)器學(xué)習(xí)的方法用于惡意代碼的識(shí)別,其實(shí)也極大地提升了對(duì)惡意代碼的對(duì)抗和識(shí)別能力。這都是一些積極的變化,但在安全領(lǐng)域,也確實(shí)發(fā)現(xiàn)了很多問(wèn)題。在此之前騰訊召開(kāi)的CSS(第三屆中國(guó)互聯(lián)網(wǎng)安全領(lǐng)袖峰會(huì))大會(huì)上,很多與會(huì)專家都談到了我上面舉的這個(gè)圖,因?yàn)槿斯ぶ悄軐?shí)際上應(yīng)用最廣泛的應(yīng)該是三個(gè)領(lǐng)域,第一個(gè)是圖像識(shí)別領(lǐng)域,第二個(gè)是語(yǔ)音識(shí)別領(lǐng)域,第三個(gè)是包括機(jī)器學(xué)習(xí)的通用技術(shù)的使用。
圖像識(shí)別領(lǐng)域,在我們的生活中廣泛展開(kāi),運(yùn)用到很多領(lǐng)域。實(shí)際上目前生成對(duì)抗網(wǎng)絡(luò)方面,已經(jīng)有眾多學(xué)術(shù)界的專家、學(xué)者做出一些樣例。例如左圖,這是一個(gè)交通標(biāo)志,實(shí)際上通過(guò)添加一些特定噪點(diǎn),可以讓對(duì)方對(duì)交通標(biāo)志的識(shí)別出現(xiàn)錯(cuò)亂,進(jìn)行錯(cuò)誤的識(shí)別。而右邊這幅圖就是在人臉識(shí)別領(lǐng)域,某大學(xué)的研究團(tuán)隊(duì)制造了一個(gè)比較特殊的研究,當(dāng)你戴著這個(gè)特殊眼鏡的時(shí)候,會(huì)引導(dǎo)機(jī)器做出錯(cuò)誤判斷,把自然人A識(shí)別成自然人B。這都是學(xué)術(shù)界已經(jīng)開(kāi)始發(fā)現(xiàn)并且指出的一些問(wèn)題,且在特定實(shí)驗(yàn)環(huán)境上得到了驗(yàn)證。
實(shí)際上這些學(xué)術(shù)上的嘗試,確實(shí)告訴我們?cè)诖罅康厥褂眠@種機(jī)器學(xué)習(xí)、算法和AI識(shí)別算法的時(shí)候,我們還有很多隱患和安全問(wèn)題有待解決,這些隱患是真實(shí)存在的。
大概在一年多、兩年前我們關(guān)注到了這些變化,同時(shí)也意識(shí)到幾個(gè)問(wèn)題:
第一,我們是否應(yīng)該在實(shí)踐中更多地去嘗試和探討AI技術(shù)作為實(shí)際工作中的一個(gè)技術(shù)的使用可能。
第二,隨著越來(lái)越多的業(yè)務(wù)使用,我們嘗試使用AI技術(shù)、機(jī)器學(xué)習(xí)技術(shù)的同時(shí),是否黑客也在嘗試使用這種技術(shù)。
第三,當(dāng)將這種技術(shù)用于業(yè)務(wù)和安全建設(shè)的時(shí)候,如果進(jìn)行不恰當(dāng)?shù)厥褂?,或者使用的算法存在某種缺陷,會(huì)導(dǎo)致黑客或黑產(chǎn)利用缺陷達(dá)成一種攻擊,取得更高的獲利或效果?
這是我們的思考,所以在這一年多、兩年的時(shí)間我們進(jìn)行了一些實(shí)踐,下面我和大家分享的就是一些實(shí)踐經(jīng)驗(yàn)。
首先我講的是在業(yè)務(wù)安全領(lǐng)域的人機(jī)識(shí)別場(chǎng)景下的黑產(chǎn)對(duì)抗和應(yīng)用情況。
在此之前要先和大家講一下,為什么人機(jī)識(shí)別在黑產(chǎn)領(lǐng)域,或者在業(yè)務(wù)安全領(lǐng)域是很重要的事情?
上面我給了大家一個(gè)數(shù)字,45億,45億是什么?
大家都知道騰訊是基于一個(gè)社交網(wǎng)絡(luò)的公司,這是我們業(yè)務(wù)的一個(gè)基礎(chǔ)支撐體系。而基于社交網(wǎng)絡(luò)的公司,實(shí)際上不可避免地面臨賬號(hào)問(wèn)題。正如大多數(shù)互聯(lián)網(wǎng)公司一樣,他們都會(huì)有自己的賬號(hào)體系。而騰訊每天所面臨的,針對(duì)賬號(hào)的攻擊、惡意嘗試,基于自動(dòng)機(jī)的是多少次?這一天大概是45億次嘗試。
如果嘗試成功一個(gè)賬號(hào),會(huì)給他多少金錢?大概是0.008人民幣。簡(jiǎn)單地計(jì)算一下,一天3600萬(wàn)。也許這個(gè)數(shù)字并不確切,但是從這一規(guī)模大家可以感受到,為什么有很多技術(shù)優(yōu)秀的人會(huì)投身在此?因?yàn)檫@是一筆非常賺錢的生意。
那為什么有黑產(chǎn)愿意付費(fèi)給這些人,用如此高的費(fèi)用去換取這些利益?
因?yàn)樯缃痪W(wǎng)絡(luò)背后的價(jià)值非常巨大,包括用戶數(shù)據(jù)、隱私,包括背后所衍生的,如電子商務(wù)、虛擬財(cái)產(chǎn)安全等擁有有巨大利益。關(guān)鍵點(diǎn)就在于此,正因?yàn)橛腥绱舜蟮睦妫圆浑y想象,從事黑產(chǎn)的人在里面的投入和技術(shù)的探索非常有動(dòng)力。
大家常會(huì)聽(tīng)到黑產(chǎn),黑產(chǎn)到底是什么樣?現(xiàn)代化的黑產(chǎn)又是什么樣?
我們經(jīng)常從電影、電視上看到的黑產(chǎn),更多的是一兩個(gè)極客,可能戴著墨鏡,或者頭發(fā)亂亂的,在一個(gè)黑暗的角落里敲代碼,對(duì)技術(shù)進(jìn)行滲透,但實(shí)際上還有另外一種黑產(chǎn),我很難用具體的詞匯描述,但與傳統(tǒng)意義的黑客、極客不一樣,這種黑產(chǎn)更多是以金錢為目的,而并不是以技術(shù)精神達(dá)到極致為目的。
這里的黑產(chǎn)實(shí)際上有幾大特點(diǎn)。
第一,具備工具化,是以規(guī)?;?、批量化生產(chǎn)為依托,實(shí)際上更像一個(gè)小型的工廠或工業(yè)體系。而且可以看到的是,里面有很多配套的硬件設(shè)施和設(shè)備支持。這個(gè)右側(cè)插著很多卡的圖,在國(guó)內(nèi)我們叫做貓池,實(shí)際上是一個(gè)一個(gè)貓,上面插了大量電話卡,可以實(shí)現(xiàn)電話卡的撥號(hào)。目前很多體系是基于電話卡來(lái)進(jìn)行自然人識(shí)別,但實(shí)際上在黑產(chǎn)下完全無(wú)效,因?yàn)樗麄冇袑I(yè)的設(shè)備和大量的電話卡去使用,完全可以突破這種體系。
再下面就是像墻一樣放滿各種各樣手機(jī)的設(shè)備。實(shí)際上在對(duì)抗很多自動(dòng)機(jī)的場(chǎng)景下,大家會(huì)覺(jué)得如果我有一些模擬軟件的識(shí)別,再加上一些協(xié)議識(shí)別是可以對(duì)抗的。而現(xiàn)在已經(jīng)進(jìn)行到可以構(gòu)建這樣一個(gè)墻,裝滿真實(shí)的手機(jī),在上面進(jìn)行自動(dòng)化模擬,這里的對(duì)抗實(shí)際上非常劇烈。這實(shí)際是我們抓到的一個(gè)黑產(chǎn)團(tuán)伙,通過(guò)這個(gè)團(tuán)伙可以看到對(duì)方的武器裝備非常先進(jìn),對(duì)方不是像我們想象那樣,僅有大刀、長(zhǎng)矛,他們也有坦克、飛機(jī)、大炮。
前面所說(shuō)的是硬件裝備,下面是軟環(huán)境,即研發(fā)環(huán)境的簡(jiǎn)單陳述。大家可以看到,其本身的架構(gòu)設(shè)計(jì)有條理性,且配有豪華的硬件設(shè)施,并搭建了一個(gè)用人工智能識(shí)別驗(yàn)證碼的平臺(tái)。用人工智能實(shí)現(xiàn)驗(yàn)證碼的好處在于,可以批量化地去攻破這種賬號(hào)登錄體系。就像前面說(shuō)的,每攻破一個(gè)就可以達(dá)到0.008人民幣,如果用機(jī)器跑一天可以跑多少?一天可以跑上千萬(wàn)次,這是一個(gè)非常豐厚的收入回報(bào)。
同時(shí),他搭建的這套人工智能體系是基于神經(jīng)網(wǎng)絡(luò)的,當(dāng)時(shí)查獲后我們進(jìn)行了測(cè)試,其對(duì)市面上所有的驗(yàn)證碼識(shí)別成功率很高。這個(gè)團(tuán)伙實(shí)現(xiàn)了工業(yè)化的進(jìn)步,用人工智能達(dá)到了行業(yè)的壟斷和霸主地位。據(jù)我們預(yù)估,當(dāng)時(shí)這個(gè)打碼平臺(tái),實(shí)際占黑產(chǎn)中攻破自動(dòng)機(jī)的領(lǐng)域80%左右的市場(chǎng)份額,可以完全壟斷了這個(gè)行業(yè)。
人工智能打碼,與以前的OCR有什么區(qū)別?OCR有很多可以做到較高的識(shí)別率,這里我給大家舉例感受一下,不僅是簡(jiǎn)單的圖像識(shí)別問(wèn)題,其中包含一些深層次的智能對(duì)抗問(wèn)題。
因?yàn)轵?yàn)證碼往往是分層的,在這種情況下已經(jīng)被識(shí)別成較可能是壞人的情況下,驗(yàn)證碼較難于識(shí)辨的,或者說(shuō)人類看起來(lái)有點(diǎn)費(fèi)勁。但大家還是能看出來(lái)是一串字母,這一串字母人類肉眼比較難識(shí)別,但實(shí)際上機(jī)器可以識(shí)別到95%。
那怎么辦?我們采用了一些小技巧,大家看一下上面的小字,上面的小字是中文,我在這里給大家翻譯一下,這段小字就是請(qǐng)你按順序輸入第5位、第2位和第3位。
目的是什么?為了避免他用人工智能圖像識(shí)別的技術(shù),把這些字母輸入識(shí)別出來(lái)以后,按順序直接輸出。所以通過(guò)我們的人機(jī)識(shí)別平臺(tái),進(jìn)行了語(yǔ)義調(diào)整,讓其按次序進(jìn)入,這樣我們就可以以對(duì)抗圖像識(shí)別的能力來(lái)進(jìn)行對(duì)抗。
大家猜一猜,在使用了這個(gè)小技巧后,對(duì)方使用了神經(jīng)網(wǎng)絡(luò)的對(duì)抗體系與我們對(duì)抗時(shí),用了多長(zhǎng)時(shí)間攻破這個(gè)技巧?大概是一天半的時(shí)間。據(jù)我們觀測(cè),我們構(gòu)建一個(gè)藍(lán)軍平臺(tái)一天可以做到百分之四五十。而黑產(chǎn)對(duì)于比較簡(jiǎn)單語(yǔ)義的大概在一天半左右可以做到80%、90%。所以神經(jīng)網(wǎng)絡(luò)對(duì)于比較簡(jiǎn)單的邏輯,比較相對(duì)固定的答案,或者邏輯不是很復(fù)雜的這種情況下,他的變種能力、對(duì)抗能力是非常強(qiáng)的,不僅僅是一個(gè)圖像領(lǐng)域的對(duì)抗問(wèn)題,而是智力領(lǐng)域的對(duì)抗問(wèn)題。
這也給我們一個(gè)深刻啟示,實(shí)際上我們傳統(tǒng)用于黑客攻防對(duì)抗的,不管是攻方還是防御方,策略對(duì)抗領(lǐng)域其實(shí)慢慢在分級(jí),對(duì)于一些弱的邏輯和一些簡(jiǎn)單的策略,機(jī)器會(huì)越來(lái)越有優(yōu)勢(shì),而人類的優(yōu)勢(shì)已經(jīng)不在,人類也許需要更有想法、創(chuàng)意的領(lǐng)域,才能固守我們的領(lǐng)域,從現(xiàn)有來(lái)看,這就是一個(gè)現(xiàn)實(shí)的例證。
我剛才提到的這樣一個(gè)黑產(chǎn)領(lǐng)域的霸主、壟斷企業(yè),他大概是一個(gè)什么樣的規(guī)模?這個(gè)所謂的“企業(yè)”其實(shí)有80個(gè)人,其種有相當(dāng)一部分人是非技術(shù)人員,其中有一部分人是機(jī)器的老師,是碼工,他會(huì)先拉一批人機(jī)對(duì)抗的驗(yàn)證碼下來(lái)讓人去打,然后通過(guò)人去識(shí)別這些圖像,讓機(jī)器通過(guò)人的監(jiān)督學(xué)習(xí)這種識(shí)別能力。當(dāng)人教會(huì)以后機(jī)器后,他就不用再雇傭這些碼工,機(jī)器可以自動(dòng)識(shí)別。
而這80個(gè)人,他們大概創(chuàng)造的收入是一天可以掙到30萬(wàn)。請(qǐng)注意,這80個(gè)人里,其實(shí)有相當(dāng)一部分人的收入非常低,因?yàn)樗麄兪强头?。其?shí)這80人的核心團(tuán)隊(duì)里,只有兩到三名是最核心的研發(fā)和搭建體系的人,這些人是真正的大頭。一旦隨著這種技術(shù)的擴(kuò)散和使用,大家想一想人機(jī)對(duì)抗領(lǐng)域面臨的挑戰(zhàn)是非常大的。
我們是如何應(yīng)對(duì)這種問(wèn)題的?這個(gè)現(xiàn)象是什么時(shí)候被我們發(fā)現(xiàn)并且處置的?
大概是一年多,將近兩年多前。所以我想讓大家也感受一下,今年我們看到人工智能的話題在安全會(huì)議上,包括工業(yè)的會(huì)議上被談到越來(lái)越多。但其實(shí)黑產(chǎn),學(xué)習(xí)研究,并且付諸于實(shí)施和使用是在兩年前,將近三年前。我們可以感受到對(duì)手的能力和速度,以及他們對(duì)于技術(shù)的執(zhí)著和進(jìn)取心,我覺(jué)得是一個(gè)很大的鞭策。
所以我們受這件事的啟發(fā),在與黑產(chǎn)對(duì)抗的領(lǐng)域在慢慢反思,除了在傳統(tǒng)領(lǐng)域跟他進(jìn)行對(duì)抗,我們也嘗試引入了一些AI的技術(shù),因?yàn)橛幸痪涔旁捴v以牙還牙,以眼還眼,既然他可以實(shí)現(xiàn)如此有靈活性、對(duì)抗性的能力,那我們?yōu)槭裁床粦?yīng)用?所以我們也在使用一些技術(shù)跟他進(jìn)行對(duì)抗。
這是我們舉的一個(gè)例子,大家可以看到,我們依然是打出驗(yàn)證碼,但是因?yàn)槲覀兛梢愿鶕?jù)各種各樣的策略信息判斷出他實(shí)際上使用的是一套AI平臺(tái)。和人一樣,AI是一種智慧,這種智慧也會(huì)犯錯(cuò),所以我們也研究AI在圖形、圖片領(lǐng)域的缺陷和問(wèn)題,比如CSS大會(huì)中提到的,可以進(jìn)行錯(cuò)誤的引導(dǎo)和訓(xùn)練。我們嘗試把這種技術(shù)用在驗(yàn)證碼領(lǐng)域,我們發(fā)現(xiàn)在這種技術(shù)使用的時(shí)候,其實(shí)我們可以引導(dǎo)機(jī)器去做出錯(cuò)誤的識(shí)別和判斷。
比如說(shuō)hsql,實(shí)際上我們引導(dǎo)機(jī)器做出了錯(cuò)誤的識(shí)別,把s識(shí)別成b。這種技術(shù)的使用對(duì)于人來(lái)說(shuō)是一種體驗(yàn)的提升,因?yàn)槿说碾y度并沒(méi)有增加,但對(duì)于機(jī)器來(lái)說(shuō),我們會(huì)讓它進(jìn)行錯(cuò)誤的判斷。
回到前面我舉的這個(gè)例子,我們?cè)?jīng)用過(guò)一些小技巧,但是失敗的一個(gè)例子。我們有什么辦法讓AI不再進(jìn)行那么高效的識(shí)別?
我們把這套技術(shù)加進(jìn)了中間,并且把AI在嘗試識(shí)別的驗(yàn)證碼里加入了一些代碼進(jìn)行混淆識(shí)別,我們發(fā)現(xiàn)如果進(jìn)行適當(dāng)?shù)乃惴ㄕ{(diào)整,可以引導(dǎo)AI的錯(cuò)誤識(shí)別率提升33.5%。我認(rèn)為這是一個(gè)很有潛力和研究?jī)r(jià)值的。因?yàn)楫?dāng)AI技術(shù)和機(jī)器學(xué)習(xí)技術(shù)進(jìn)入了攻擊這個(gè)領(lǐng)域,其趨勢(shì)是不可阻擋的,如果你想做好防御和對(duì)抗工作,那在這個(gè)領(lǐng)域,你保持學(xué)習(xí)進(jìn)取和創(chuàng)新探索,這是必要的。
而實(shí)際工業(yè)上的實(shí)踐結(jié)果,我們可以看到,經(jīng)過(guò)不長(zhǎng)一段時(shí)間的探索,提升和完善空間還是很大的。請(qǐng)大家注意,剛才我們看到的驗(yàn)證碼實(shí)際上尺寸是非常小的,如果我們相對(duì)來(lái)說(shuō)有一個(gè)比較大的人機(jī)對(duì)抗的界面和場(chǎng)景,這里的改善空間、完善空間和優(yōu)化空間會(huì)更大。因?yàn)楸容^小的驗(yàn)證碼做圖像對(duì)抗的戰(zhàn)場(chǎng)也很小,所以你優(yōu)化和對(duì)抗的空間也會(huì)很小。
第二個(gè)有趣的思路,當(dāng)我們和他們對(duì)抗的同時(shí),我們想到了一個(gè)有趣的思路。黑客的方法往往是暴力的,不按常理出牌的套路。比如我們?cè)?jīng)和黑客的人工智能對(duì)抗,我們采用了一個(gè)方法,你既然用神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別我們的字符,那我們就制造出更多的字符庫(kù),使用更多的字符庫(kù)跟你進(jìn)行對(duì)抗。
但很不幸,我們發(fā)現(xiàn)機(jī)器的算力和人力創(chuàng)造字符的算力完全是不成比例的,而且因?yàn)樗强赡怖模运灰邪俜种氖挠臻g就可以做,他不需要做到非常高的標(biāo)準(zhǔn)。但作為防御方,如果你做不到95%、99%的防御標(biāo)準(zhǔn),你的防御可以說(shuō)就是失敗的,所以這是非常不對(duì)稱的一個(gè)戰(zhàn)場(chǎng),但并不意味著我們并沒(méi)有機(jī)會(huì)。因?yàn)槲覀儼l(fā)現(xiàn)就像傳統(tǒng)安全一樣,很多黑客的技術(shù)和手段稍加改善,其實(shí)對(duì)于防御非常有幫助。
比如像生成對(duì)抗網(wǎng)絡(luò)的手段,我們發(fā)現(xiàn)它其實(shí)也可以很好地來(lái)生成字庫(kù)和字體,如果我們能生成,其實(shí)我們又有了一個(gè)比較強(qiáng)大和多樣的武器庫(kù),在這里是否也就意味著我們有非常有利的武器?
在我們實(shí)踐的過(guò)程中,我們發(fā)現(xiàn)這對(duì)于拖緩他們的攻擊效率是非常有幫助的,但我們發(fā)現(xiàn)這個(gè)思路,也不是完全有效的。因?yàn)樵贏I攻防對(duì)抗的更深層次,我們發(fā)現(xiàn)如果你在一個(gè)戰(zhàn)場(chǎng)與AI去進(jìn)行博弈、對(duì)抗,往往會(huì)使自己精疲力竭,為什么?
因?yàn)樵谀承╊I(lǐng)域,其實(shí)技術(shù)發(fā)展的水平是不均衡的,比如說(shuō)圖像識(shí)別,實(shí)際上圖像識(shí)別領(lǐng)域已經(jīng)發(fā)展得非常非常好,如果我們?cè)趫D像的混淆和對(duì)抗上與黑客的成熟算法和成熟體系對(duì)抗,我們發(fā)現(xiàn)是非常吃虧的,所以我們引入了更多的想法,這個(gè)想法是什么?
如果一場(chǎng)AI的博弈,我們把自己和對(duì)手想成博弈的兩個(gè)對(duì)象,那實(shí)際上決定我們攻防成功的關(guān)鍵是什么?我覺(jué)得第一個(gè)是數(shù)據(jù),這個(gè)數(shù)據(jù)決定了天花板的高低。第二個(gè)是算法,算法決定了你有多大程度上去接近這個(gè)天花板。
所以作為騰訊這樣一個(gè)公司來(lái)說(shuō),我們就要發(fā)揮好這兩個(gè)地方的優(yōu)勢(shì),第一個(gè)是,我們是一個(gè)對(duì)數(shù)據(jù)積累非常多的公司,我們現(xiàn)在用于此處的安全數(shù)據(jù)大概是11個(gè)P,如果我們把11個(gè)P做好,我們可以做出非常高的天花板。
第二,如果我們?cè)谒惴ㄉ辖Y(jié)合了很多數(shù)據(jù)和業(yè)務(wù)的行為數(shù)據(jù)進(jìn)行關(guān)聯(lián),實(shí)際上我們可以很大程度上接近于天花板,這是我們做的一個(gè)模型,大家可以看到,我們把多個(gè)用戶行為和黑客行為進(jìn)行了關(guān)聯(lián),然后把這種行為數(shù)據(jù)和圖像上的對(duì)抗數(shù)據(jù)結(jié)合,我們把他做成一個(gè)完整的鏈去考慮,用一個(gè)完整的時(shí)間窗去識(shí)別,如果我們不僅僅是在圖像領(lǐng)域?qū)?,而且在完整的行為鏈?duì)抗,我們發(fā)現(xiàn)正常用戶和黑客、黑產(chǎn)是有顯著性的行為差異,如果我們把這個(gè)模型建好,是真正可以抵御他的。當(dāng)然,這些也非常需要在AI的算法和數(shù)據(jù)方面的理解和建設(shè)工作。
所以總結(jié)一下,在業(yè)務(wù)安全上,其實(shí)在AI攻防這個(gè)領(lǐng)域,我們覺(jué)得實(shí)際上并沒(méi)有一個(gè)一招致敵的方法論,更多的是持續(xù)運(yùn)營(yíng)的過(guò)程。
持續(xù)運(yùn)營(yíng)的過(guò)程有兩個(gè)關(guān)鍵因素,第一,在數(shù)據(jù)的積累和剖析上,選擇什么樣的數(shù)據(jù),積累什么樣的數(shù)據(jù),以及你積累長(zhǎng)時(shí)間的有效性和效率,這是非常關(guān)鍵的事。
其次,你對(duì)于數(shù)據(jù)的理解,也就是說(shuō)對(duì)于業(yè)務(wù)的理解,不僅僅是基于安全層面,你也要理解本身的業(yè)務(wù),這樣對(duì)于數(shù)據(jù)的挖掘能力比較強(qiáng),你就能設(shè)計(jì)出一個(gè)更高效的算法用于線上的對(duì)抗,所以這兩個(gè)關(guān)鍵點(diǎn)是你決勝的關(guān)鍵。也就是說(shuō)我們最后總結(jié)下來(lái),就是一個(gè)持續(xù)運(yùn)營(yíng)和對(duì)抗的過(guò)程。
第二個(gè)領(lǐng)域是我們傳統(tǒng)的安全領(lǐng)域,實(shí)際上在我們和大家分享的話題中,我們發(fā)現(xiàn)第一個(gè)風(fēng)控領(lǐng)域?qū)嶋H上是非常好寫(xiě)、好做的,而且效果也是非常突出的。
這里還有一個(gè)案例,我并沒(méi)有跟大家分享,就是在我們的登陸領(lǐng)域,除了我們的自動(dòng)機(jī)識(shí)別,還有一些登陸領(lǐng)域的惡意行為,比如說(shuō)電子商務(wù)登陸上,包括一些刷單、刷粉的行為,實(shí)際上也是非常普遍的。
但這里我們引用了人工智能,大概在3個(gè)月的時(shí)間,我們把識(shí)別率提高了百分之二三十。并且機(jī)器學(xué)習(xí)的技術(shù),可以讓我們發(fā)現(xiàn)很多之前沒(méi)有發(fā)現(xiàn)的關(guān)鍵因子,可以提取出來(lái)。這些關(guān)鍵因子的引入,導(dǎo)致我們可以極大地提升識(shí)別率。但是到了傳統(tǒng)安全領(lǐng)域,我們發(fā)現(xiàn)實(shí)際上在這里去構(gòu)建攻防的技術(shù)體系是非常困難的,挑戰(zhàn)也非常多。為什么是這樣?我也跟大家去進(jìn)行一些分享。
這是我們現(xiàn)在的傳統(tǒng)安全領(lǐng)域,也就是黑客攻防領(lǐng)域的現(xiàn)狀。這個(gè)領(lǐng)域的現(xiàn)狀,我覺(jué)得可以用兩個(gè)詞來(lái)概括,第一個(gè)叫做快,第二個(gè)詞叫做專。
為什么是這樣?大家看一下這里的三幅圖,我們看到越來(lái)越多的黑客攻防攻擊,他是以數(shù)據(jù)的獲取為目的,以專業(yè)團(tuán)體非常隱蔽的滲透為目的,而且他們所有的行為是非常具有自我保護(hù)意識(shí)的。
為什么會(huì)有這樣的趨勢(shì)?先看外部環(huán)境,我們可以看到,現(xiàn)在世界上最大的公司,不管是蘋(píng)果、谷歌、騰訊,這些公司其實(shí)本質(zhì)上都是一些輕資產(chǎn)公司,但是這些輕資產(chǎn)公司具有巨大的市值,為什么?因?yàn)樗麄兊臄?shù)據(jù)是高價(jià)值的。
他們這些高價(jià)值的數(shù)據(jù),實(shí)際上當(dāng)黑客進(jìn)行攻擊的時(shí)候,是可以很容易進(jìn)行變現(xiàn)和獲取利益的,所以黑客更有動(dòng)機(jī)去獲取這些數(shù)據(jù)。而為了獲取這些高價(jià)值的數(shù)據(jù),黑客也需要保護(hù)自己,因?yàn)楹苋菀妆蛔カ@受到懲處。
歷史案例我們也看到,有很多專業(yè)團(tuán)體被抓到后被公布出來(lái)。所以所有的這些趨勢(shì),外部的打擊和趨勢(shì)會(huì)逼著他們?cè)絹?lái)越快和專業(yè),并且因?yàn)榇驌?,逼著他們?cè)絹?lái)越多地去隱藏。而因?yàn)樗麄冊(cè)絹?lái)越多使用零備和未公開(kāi)的技巧,越來(lái)越多的是專業(yè)的團(tuán)體,他們也適用于適者生存的法則,剩下的都是最精英的,所以他們?cè)絹?lái)越被難以發(fā)現(xiàn)。所以這個(gè)行業(yè)出現(xiàn)了一個(gè)趨勢(shì),黑客的行為越來(lái)越非顯性化。
這是我們實(shí)際的一個(gè)現(xiàn)網(wǎng)數(shù)據(jù),在座的各位非常清楚這個(gè)漏洞,大家可以看到,這是今天我們流量監(jiān)測(cè)上的實(shí)際數(shù)據(jù),這個(gè)實(shí)際數(shù)據(jù)可以這樣解讀,大家可以看到最高的尖刺,發(fā)現(xiàn)是在什么時(shí)候?這個(gè)漏洞從公布的時(shí)候是圖表的零點(diǎn),到最高的尖刺大家猜一猜是經(jīng)過(guò)了多長(zhǎng)時(shí)間?達(dá)到了差不多三四千次一秒。到這個(gè)尖次,就是從這個(gè)漏洞在社區(qū)公布出來(lái)到尖次,半個(gè)小時(shí)我們就達(dá)到了最高峰。半個(gè)小時(shí)以后反而下降了,然后再出現(xiàn)幾次高峰。
所以實(shí)際上當(dāng)一個(gè)漏洞公布出來(lái),給你的反應(yīng)時(shí)間大概就是半個(gè)小時(shí),而對(duì)方攻擊的所有對(duì)象都是我們的資產(chǎn)服務(wù)器,我可以推斷出來(lái),有相當(dāng)一部分人已經(jīng)把核心資產(chǎn)服務(wù)器納入攻擊列表,他們?nèi)钡闹皇且粋€(gè)未公開(kāi)的技巧或很新鮮的漏洞,會(huì)在半個(gè)小時(shí)內(nèi)完成漏洞進(jìn)行馬上使用,這就是我們面臨的現(xiàn)實(shí)。
因?yàn)檫@個(gè)越來(lái)越隱性化,所以我們對(duì)AI探索也是應(yīng)對(duì)這種風(fēng)險(xiǎn)去設(shè)計(jì)的,比如說(shuō)DDoS攻擊,我們現(xiàn)在發(fā)現(xiàn)也是越來(lái)越多的攻擊去給我們發(fā)包,越來(lái)越多地去模擬這種游戲。
我們?cè)谶@里越來(lái)越多地模擬業(yè)務(wù)協(xié)議,實(shí)際上導(dǎo)致我們?cè)絹?lái)越難以去識(shí)別這里攻擊的行為。我們引入了AI,發(fā)現(xiàn)他給我們帶來(lái)一個(gè)很好的幫助。
帶來(lái)的這個(gè)幫助是什么?我們可以做到千人千面。所謂的千人千面就是,我們發(fā)現(xiàn)人工智能是可以學(xué)習(xí)的,既然他可以學(xué)習(xí),那我們就讓他學(xué)習(xí)各種各樣的業(yè)務(wù)。當(dāng)他學(xué)習(xí)各種各樣的業(yè)務(wù)以后,就可以做到一件事:不管你是什么樣的攻擊,不管是什么樣的模擬,因?yàn)槟愫退L(zhǎng)得不太像,所以我們就可以把你識(shí)別出來(lái)。
并不是根據(jù)黑客上識(shí)別對(duì)方,而是根據(jù)我們擁有的巨量數(shù)據(jù),用一個(gè)比較長(zhǎng)的時(shí)間線,讓我們的機(jī)器、安全系統(tǒng)去正確認(rèn)知一個(gè)業(yè)務(wù),然后在這個(gè)基礎(chǔ)上做識(shí)別。
為什么我們要做這件事?因?yàn)楝F(xiàn)在的DDoS其實(shí)在攻擊領(lǐng)域面對(duì)更新?lián)Q代的問(wèn)題,現(xiàn)在的攻擊者不能做到精準(zhǔn)的流量控制和流量到達(dá)。如果他能做到,大家可以想象一下,現(xiàn)有的防御系統(tǒng)都是要失效的,為什么?
因?yàn)榇蠖鄶?shù)是基于特征和閾值的控制。如果他可以通過(guò)精準(zhǔn)控制,他就可以嘗試估算出你的閾值和特征,一旦他可以精準(zhǔn)控制,他就可以在每次觸發(fā)防御之前結(jié)束攻擊,但依然對(duì)業(yè)務(wù)造成損失,這樣你就會(huì)進(jìn)行一個(gè)長(zhǎng)久的苦戰(zhàn),并且無(wú)法對(duì)損失進(jìn)行補(bǔ)齊。大家想想這個(gè)思路一旦被攻擊者掌握其實(shí)并不難實(shí)現(xiàn),如果一旦實(shí)現(xiàn),我們現(xiàn)有的防御體系都會(huì)被洞穿。
這是在滲透方面的一個(gè)案例,也是想向大家展示一下這里的挑戰(zhàn)性,這是我們抓到的兩個(gè)真實(shí)的專業(yè)團(tuán)體對(duì)我們進(jìn)行滲透的木馬,大家可以看到這兩個(gè)木馬其實(shí)代表了兩代人,或者說(shuō)兩代技術(shù)。
右側(cè)的木馬代表的是比較原始的技術(shù),他實(shí)際上是一個(gè)網(wǎng)頁(yè)木馬,里面有一個(gè)很明顯的特征,黑客的后門特征非常顯性,我下面畫(huà)的這些紅框的部分都是顯性特征,用傳統(tǒng)的做法這種木馬非常好識(shí)別。而我們從今年以來(lái)抓到的大多數(shù)木馬都是像左側(cè)的木馬,并沒(méi)有非常顯性的特征,所以如果你用傳統(tǒng)的特征、閾值、方法,對(duì)這種東西的識(shí)別是非常困難的,非常容易與正常的文件混淆,并且有一個(gè)巨大的問(wèn)題是,雖然云計(jì)算和這種互聯(lián)網(wǎng)企業(yè)規(guī)模的擴(kuò)大,當(dāng)你去管一個(gè)巨量、海量的業(yè)務(wù)時(shí),你真正面臨的誤報(bào)是不可承受的,這是最大的一個(gè)挑戰(zhàn),就是黑客的非顯性化,越來(lái)越不容易跟正常業(yè)務(wù)區(qū)分,而本身的業(yè)務(wù)規(guī)模和體量又不斷增大,這是一個(gè)矛盾體,對(duì)傳統(tǒng)的安全架構(gòu)和安全思路提出了巨大的挑戰(zhàn)。
這是我們最佳實(shí)踐的一個(gè)嘗試,嚴(yán)格意義上這是一個(gè)實(shí)驗(yàn),并不是一個(gè)最佳實(shí)驗(yàn),我相信這里未來(lái)的路還很長(zhǎng)。我們這里做的實(shí)驗(yàn)是這樣,一個(gè)是算法優(yōu)化,我們用了兩套機(jī)器學(xué)習(xí)的算法,一套是68.75%,另外一套是92.19%,發(fā)現(xiàn)都不能在實(shí)際應(yīng)用中滿足我們95%以上識(shí)別率的要求。這個(gè)是指webshell的識(shí)別,我們這里想到一個(gè)方法,根據(jù)人的特征引用變量,并把A和B兩套算法的結(jié)合,隨著新特征的引入和算法的引入,進(jìn)行權(quán)重和模型的重新搭建以后,可以達(dá)到96.88%。
所以我覺(jué)得算法的優(yōu)化,選擇什么樣的算法和特征是這里面的關(guān)鍵。其次,如何選擇算法也是在實(shí)際工業(yè)領(lǐng)域中很重要的思考點(diǎn)。
大家可以看到,我這里的這兩幅圖,如果用前面的思路,去長(zhǎng)時(shí)間學(xué)習(xí)業(yè)務(wù),其實(shí)我們是可以做到有一個(gè)很好的幫助。大家可以看到右邊這幅圖,有幾個(gè)白點(diǎn)在模型之外,在常見(jiàn)的領(lǐng)域我們可以看到防御方最痛苦的是什么?
有一個(gè)巨大的難點(diǎn),你要不斷地加白名單,因?yàn)檎5臉I(yè)務(wù)和操作員的行為是異常的,但又是正常用戶的行為。對(duì)這種行為,現(xiàn)在的傳統(tǒng)方法只能不斷地加白名單,而到一定程度是有問(wèn)題的。如果用機(jī)器學(xué)習(xí)的方法,實(shí)際上可以很好地去學(xué)習(xí),雖然是一個(gè)異常點(diǎn),但依然可以識(shí)別出這是一個(gè)好人,并且對(duì)壞點(diǎn)進(jìn)行標(biāo)注。所以這是在機(jī)器學(xué)習(xí)領(lǐng)域和數(shù)據(jù)保護(hù)領(lǐng)域非常大的幫助,可以幫助我們極大地釋放人力,解決傳統(tǒng)領(lǐng)域的一些白名單的運(yùn)用以及自然人的定性、定位問(wèn)題。
在實(shí)際工作中這種方法論并不是完美的,也面臨一個(gè)挑戰(zhàn),深度學(xué)習(xí)在實(shí)際工作領(lǐng)域效果非常好,但是在線上的時(shí)候效率問(wèn)題會(huì)非常大。尤其對(duì)于騰訊這樣一個(gè)體量的公司,或者對(duì)于Facebook或谷歌這樣的公司,運(yùn)算挑戰(zhàn)在某些場(chǎng)景幾乎不可接受。怎么解決?
我們也想了一些有意思的想法,就是我們用深度學(xué)習(xí)來(lái)思考,用淺度學(xué)習(xí)來(lái)檢測(cè),我們用深度學(xué)習(xí)模型來(lái)發(fā)覺(jué)黑客攻防領(lǐng)域,或者前面提到的業(yè)務(wù)安全領(lǐng)域的一些本質(zhì)問(wèn)題,一些我們沒(méi)有發(fā)現(xiàn)的特征問(wèn)題,我們用它來(lái)提取。但構(gòu)建線上實(shí)時(shí)打擊模型的時(shí)候,我們引用淺度模型,這樣在效率、精準(zhǔn)度和透析事物的本質(zhì)之間取得平衡,我們覺(jué)得這是一個(gè)很好的收獲,在工業(yè)實(shí)踐中可能會(huì)對(duì)大家有參考價(jià)值的東西。
最后我進(jìn)入一個(gè)尾聲,再次跟大家總結(jié)一下,經(jīng)過(guò)我們這段時(shí)間的實(shí)踐有三個(gè)經(jīng)驗(yàn)跟大家分享。人工智能想跟安全結(jié)合,或者我們想更多地把安全領(lǐng)域進(jìn)入下一個(gè)時(shí)代,我覺(jué)得最主要的三件事是需要我們思考的。第一,數(shù)據(jù),我們需要有海量的數(shù)據(jù),需要有一個(gè)真實(shí)的戰(zhàn)場(chǎng),在這個(gè)真實(shí)的戰(zhàn)場(chǎng)截取海量的數(shù)據(jù),去訓(xùn)練我們的AI,因?yàn)檫@決定了AI到底能走多遠(yuǎn),天花板有多高。第二個(gè)事情是算法,不僅僅要對(duì)人工智能的算法有理解,更重要的是要對(duì)業(yè)務(wù)有理解,這樣的話在構(gòu)建算法的時(shí)候,可以更有針對(duì)性,能發(fā)掘出更多的變量,這樣在識(shí)別的時(shí)候有更高精度。第三,耐心,因?yàn)檫@畢竟是一個(gè)長(zhǎng)期對(duì)抗的過(guò)程。
作為AI來(lái)說(shuō),或者AI安全來(lái)說(shuō),我覺(jué)得我們不妨這樣想,如果我們現(xiàn)在看27年前的互聯(lián)網(wǎng),在剛剛發(fā)明的時(shí)候,我們會(huì)告訴他們你這不是真正的互聯(lián)網(wǎng),我覺(jué)得對(duì)于AI安全來(lái)說(shuō)也是一樣,這條路還非常長(zhǎng),AI或AI安全剛剛起步,這意味著我們有無(wú)限美好未來(lái)的可能,所以希望能有更多的機(jī)會(huì)跟大家交流,我們一起去探索美好的未來(lái),謝謝大家。