導讀:人工智能(Artificial Intelligence,AI)、大數(shù)據(jù)(Big Data)和云計算(Cloud Computing)是當前最受關(guān)注的技術(shù),業(yè)內(nèi)常常取這三個技術(shù)英文名的首字母將其合稱為ABC。 最近10年,資本和媒體對這三種技術(shù)的熱度按時間排序依次為:云計算、大數(shù)據(jù)和人工智能。事實上,若按照技術(shù)出現(xiàn)的時間排序,結(jié)果正好相反,人工智能出現(xiàn)最早,大數(shù)據(jù)其次,云計算則出現(xiàn)得最晚。 由于每種技術(shù)都能應用于各個領(lǐng)域,因此人們可以從不同的角度分別解讀每種技術(shù)。作為同時在研發(fā)和使用這三種技術(shù)的機構(gòu)負責人,作者將嘗試從大數(shù)據(jù)的角度解釋ABC的關(guān)系,并且闡述這三種技術(shù)對于企業(yè)、機構(gòu)和人類社會的重要性。 作者:馮雷 姚延棟 高小明 楊瑜 如需轉(zhuǎn)載請聯(lián)系大數(shù)據(jù)(ID:hzdashuju) 人工智能是計算機科學的一個分支,它的主要研究目標是用計算機程序來表示人類智能。這個詞最早是在1956年的達特茅斯會議上正式提出的。在達特茅斯會議正式提出“人工智能”這個概念之前,圖靈和早期的計算機科學家一般用“機器智能”這個詞。 需要強調(diào)的是,人工智能是建立在計算機之上。不管人工智能應用多么美妙和復雜,在圖靈眼里都是圖靈機上的一個程序(或者叫作可計算數(shù),具體參考《從圖靈機、圖靈測試到人工智能:什么決定了AI能否取代人類?》)。 人工智能課程的主要目的是學習建立在模型之上的算法。這些算法和其他計算機領(lǐng)域的算法并無太大區(qū)別,只是這類算法專注在如圖1-3所示的智能主體(Intelligent Agent)里面的模型。在人工智能領(lǐng)域,計算機科學家們試圖建立模型使得智能主體能夠觀察周圍環(huán)境并做出行動,就像人類的行為那樣。
▲圖1-3 智能主體作為AI的主要研究對象
最近5年,由于智能主體模型在無人駕駛、聊天機器人和計算機視覺識別等應用的準確率的提升,人工智能的應用熱度也隨之提升。AlphaGo等棋類對弈讓人工智能被公眾津津樂道,因為計算資源和計算能力的提升,在限定時間內(nèi),對弈模型比人類棋手更具優(yōu)勢,這也引發(fā)了很多關(guān)于人工智能的討論。
01 AI的發(fā)展史
自遠古時代,人類一直希望能夠創(chuàng)造一種類似于人類智能的機器,將人類從乏味的重復勞動中解放出來。
直到1936年,計算機科學的鼻祖圖靈發(fā)表了名為《論可計算數(shù)》的論文,機器模擬人類智能的哲學話題才轉(zhuǎn)變成一個可以像數(shù)學學科那樣被論證的課題。在論文中,圖靈構(gòu)造了假想的機器來模仿人類。電影《模仿游戲》講述的就是圖靈如何構(gòu)造假想的機器(計算機)來模仿人類的故事。
在那個時代,人工智能的概念還沒有提出,人們更多地使用“機器智能”這個詞來討論計算機帶來的智能。簡單地說,圖靈的論文證明了機器可以模仿人類智能,所以今天的無人駕駛、聊天機器人、棋類對弈和計算機視覺識別等應用都是圖靈預見的,雖然他那時并沒有足夠的硬件條件測試這些應用。
在圖靈提出圖靈機后,多個機構(gòu)便開始設(shè)計真正意義上的遵循通用圖靈機模型架構(gòu)的存儲程序計算機(Stored-program Computer)。雖然第一臺存儲程序計算機(后文稱作現(xiàn)代計算機)是誰先發(fā)明的至今仍有爭議,但是影響較大的是馮·諾依曼提出的EDVAC(Electronic Discrete Variable Automatic Computer)。馮·諾依曼在后來也確認現(xiàn)代計算機的核心設(shè)計思想是受到通用圖靈機的啟發(fā)。
現(xiàn)代計算機發(fā)明以后,各種應用如雨后春筍一樣蓬勃發(fā)展,但是真正把人工智能作為一個應用方向提出來還是在1956年的達特茅斯會議。
在20世紀40年代末現(xiàn)代計算機被發(fā)明后,從20世紀50年代開始,各個領(lǐng)域都開始關(guān)于“思考機器”(Thinking Machines)的討論。各個領(lǐng)域的用詞和方法的不同帶來了很多混淆。于是,達特茅斯學院(Dartmouth College)年輕的助理教授麥卡錫(John McCarthy)決定召集一個會議澄清思考機器這個話題。
召集這樣的會議需要贊助,聰明的麥卡錫找到了他在IBM公司的朋友羅切斯特(Nathaniel Rochester)和在普林斯頓大學的朋友閔斯基(Marvin Minsky)以及大師香農(nóng)一起在1955年寫了一份項目倡議。在倡議中,他使用了人工智能(Artificial Intelligence)這個詞,避免和已經(jīng)有的“思考機器”一詞混淆。
這里值得一提的是閔斯基,麥卡錫和閔斯基后來在麻省理工學院領(lǐng)導了AI實驗室,成就了麻省理工學院在人工智能領(lǐng)域首屈一指的地位。
會議在1956年舉行,這里必須提到另外兩位短期的參會者,來自卡內(nèi)基·梅隆大學的紐厄爾(Alan Newell)和司馬賀(Hubert Simon)。他們雖然只呆了一個禮拜,但是他們的報告中公布的一款程序“邏輯理論家”(Logic Theorist)代表了人工智能的另外一條路線。因為紐厄爾和司馬賀的奠基工作,卡內(nèi)基·梅隆大學成為人工智能的另一個重鎮(zhèn)。
02 對AI應用的正確預期
達特茅斯會議的意義在于確立了“人工智能”(AI)作為計算機科學的一個研究領(lǐng)域,自那以后,AI在機器視覺、自然語言處理、無人駕駛等領(lǐng)域取得了長足發(fā)展。但是,“人工智能”這個概念常常被過度消費。過去,美國的學者用這個概念來申請政府研究經(jīng)費,今天有不少公司用這個概念來從資本市場募資。
但實際上,AI的進展并不像很多人預言的那樣樂觀。
就棋類對弈而言,司馬賀在20世紀50年代末就預言計算機能打敗人類,但沒有實現(xiàn);20世紀60年代末,麥卡錫打賭說計算機將在10年內(nèi)打敗人類,結(jié)果他輸了;國際象棋程序深藍在“限定時間內(nèi)”勝出人類直到20世紀90年代末才實現(xiàn)。圍棋程序AlphaGo在“限定時間內(nèi)”勝出人類則是在2017年實現(xiàn)的。
閔斯基在20世紀80年代末預言,二十年內(nèi)可以解決自然語言處理問題,時至今日,各種AI應用在自然語言處理方面尚有極大差距。
如今的“無人駕駛”在商用中實際上更多起到“輔助駕駛”的作用,因為在實際的使用中仍出現(xiàn)過意外情況,從保證行車安全的角度,尚不能實現(xiàn)真正的“無人駕駛”。
人工智能最近一次的持續(xù)升溫是被包括大數(shù)據(jù)和云計算在內(nèi)的軟硬件技術(shù)持續(xù)發(fā)展使得很多應用得以落地而驅(qū)動的(我們將在下一節(jié)中討論ABC的關(guān)系)。從歷史經(jīng)驗來看,也許是由于大眾媒體和科幻電影的影響,AI界有種過于樂觀的傾向。
但實際上,我們對于AI模型的精度應該抱有十分謹慎的態(tài)度,因為我們構(gòu)建的神經(jīng)網(wǎng)絡(luò)在內(nèi)的很多AI模型本質(zhì)上還是經(jīng)驗模型,并不是一個嚴格的邏輯證明。這些模型的精度比起古典力學模型精度還差了很多。即使是古典力學模型,在微觀量子世界也是失效的,所以對于這些模型的使用范圍也要持謹慎態(tài)度。
當然,我們也不能對建立在經(jīng)驗模型上的AI應用持過度懷疑的態(tài)度,因為我們的大部分知識來自經(jīng)驗,事實證明,這些知識也是實用的。所以,AI是一個在不斷前進的領(lǐng)域。
人工智能另外一個層面的討論是機器能否超越人類?這個問題是令我們對于人工智能感到不安的原因。從計算機發(fā)明的第一天,圖靈和其他偉大的數(shù)學家們就已經(jīng)對這個話題進行過深入的討論。
與大眾傳媒不同,數(shù)學家和計算機科學家們對這個問題的討論是深層次的數(shù)學和邏輯層面的討論?!?a target="_blank">從圖靈機、圖靈測試到人工智能:什么決定了AI能否取代人類?》著重討論AI和人的關(guān)系,有決心探究這一問題的讀者可以參考這篇文章。
03 ABC之間的關(guān)系
前面已經(jīng)解釋了ABC的概念,這里我們來討論一下ABC之間的重要內(nèi)在關(guān)系以及這些內(nèi)在關(guān)系帶來的可以賦能于商業(yè)的巨大技術(shù)產(chǎn)能。從技術(shù)角度上看,ABC之間有以下兩層重要關(guān)系:
大量數(shù)據(jù)輸入到大數(shù)據(jù)系統(tǒng),從而改善大數(shù)據(jù)系統(tǒng)里建立的機器學習模型。
云計算提供的算力使得普通機構(gòu)也可以在今天用大數(shù)據(jù)系統(tǒng)計算大量數(shù)據(jù)從而獲得AI能力。
先看第一層關(guān)系。谷歌研究院的F. Pereira、P. Norvig和A. Halevy發(fā)表了一篇文章《數(shù)據(jù)的奇效》,解釋了如何通過大量數(shù)據(jù)提高機器學習模型的準確率。早在谷歌之前,微軟研究院的Michele Banko和Eric Brill在他們的論文《擴展到非常非常大文本來去除自然語言歧義》中,展示了使用海量數(shù)據(jù)后各個機器模型的準確率都有大幅度提高,如圖1-6所示。
這一結(jié)論為機器學習和人工智能的問題求解指出了一個新方向:用大量數(shù)據(jù)和大數(shù)據(jù)計算來提高人工智能。對比一下自然語言翻譯在最近10年因為利用大數(shù)據(jù)和計算所帶來的進展,讀者就能感覺到這種力量。
▲圖1-6 用海量數(shù)據(jù)后各個機器模型的準確率都有大幅度提高
再看第二層關(guān)系。云計算帶來的巨大好處就是提供商品化的計算資源,以前只有政府機構(gòu)和大型企業(yè)才能擁有的巨大計算資源,現(xiàn)在可以被一個創(chuàng)業(yè)公司所擁有。這個從量變到質(zhì)變的過程使得我們可以重新審視一些計算機行業(yè)的難題。
計算資源的豐富使得大數(shù)據(jù)技術(shù)能夠以更低的門檻被使用。云計算平民化了大數(shù)據(jù)技術(shù),使得大數(shù)據(jù)技術(shù)被企業(yè)廣泛采用,企業(yè)也利用大數(shù)據(jù)養(yǎng)成了保管數(shù)據(jù)的習慣,把數(shù)據(jù)當作未被開采的資源。大數(shù)據(jù)的普及給人工智能的分支——機器學習帶來了意想不到的驚喜。
綜合前面討論的ABC的內(nèi)在含義,當前的機器學習、人工智能可以朝著以下兩個方向前進:
設(shè)計新的機器學習模型,在前人的模型上有所創(chuàng)新,改進模型效果。
使用已有的機器學習模型,但是利用前人所沒有的數(shù)據(jù)量和云計算帶來的計算能力來改進模型效果。
谷歌公司的Norvig曾經(jīng)說過“我們沒有更好的算法,但是有更多的數(shù)據(jù)”。顯然,Norvig鼓勵按第二種方法進行創(chuàng)新,當然,這不意味著用第一種方法創(chuàng)新不重要。但需要指出的是,第一種方法的創(chuàng)新門檻要遠高于第二種,除了世界頂級的機構(gòu),普通機構(gòu)很難擁有相應的資金、人才及配套的管理和文化來支撐第一種創(chuàng)新方法。
第二種方法對于傳統(tǒng)的機構(gòu)也是可以重復和實踐的,按照已經(jīng)有的方法論、成功案例和人才培訓可以實現(xiàn)基于大數(shù)據(jù)和機器學習的高階數(shù)字化轉(zhuǎn)型。
前面討論的ABC的關(guān)系可以總結(jié)成圖1-7。云計算從量變到質(zhì)變帶來前所未有和平民化的計算資源。企業(yè)和互聯(lián)網(wǎng)在數(shù)字化應用方面產(chǎn)生了大量的數(shù)據(jù)。這些數(shù)據(jù)和計算能力使得大數(shù)據(jù)技術(shù)普及到普通機構(gòu),而這些機構(gòu)利用大數(shù)據(jù)來創(chuàng)建和改善現(xiàn)有的機器學習模型,帶來更好的人工智能成效。
▲圖1-7 ABC之間的關(guān)系
AI帶來的社會影響可能超過前三次技術(shù)革命。隨著科技和商業(yè)不斷推動AI技術(shù)前進,AI和人之間的關(guān)系是技術(shù)領(lǐng)袖、商業(yè)領(lǐng)袖和政策制定者們不得不思考的問題。
前面關(guān)于AI和人的關(guān)系的大部分討論都沒有系統(tǒng)化和邏輯化,因而不是一個學術(shù)討論,《從圖靈機、圖靈測試到人工智能:什么決定了AI能否取代人類?》則會在邱奇和圖靈的學術(shù)討論上回顧并延伸到AI和人的討論。這部分討論非常硬科學但是對于那些有興趣深入思考AI技術(shù)和人類關(guān)系的讀者或者希望跳出AI框架內(nèi)應用創(chuàng)新而成為系統(tǒng)創(chuàng)新者的讀者,啃啃這根硬骨頭定有“會當凌絕頂,一覽眾山小”的感覺。
聯(lián)系客服