技術(shù)世界不會(huì)讓人永遠(yuǎn)躺在功勞簿上。
繁忙之余,感謝愉快的地鐵閱讀時(shí)光,讀了一本科普書《智能語音時(shí)代》。可能由于譯者不是專業(yè)人士的緣故,在翻譯中有一些常識(shí)性錯(cuò)誤,例如出現(xiàn)了“網(wǎng)景公司正在奮力開發(fā)IE瀏覽器”之類的,但是瑕不掩瑜,作者還是給出了很多有意思的事實(shí)和觀點(diǎn),例如:
最好的魔術(shù)就是——
能從逝者那里拿回一些東西,
能讓某些東西無中生有,
能讓無生命的東西具有靈性。
“不動(dòng)筆墨不讀書”,讀書后的隨筆札記就是下面的這些文字。
語音,是人類呱呱墜地后最早使用的溝通方式,也是現(xiàn)代人際交流最基本的方式,更是未來人機(jī)交互最重要的方式。語言把我們連接起來,人們知道如何說話,因?yàn)槲覀兘K其一生都在說話。
語音對(duì)我們有意義,是因?yàn)槲覀冎浪硎镜膶?duì)象及概念,我們有邏輯和常識(shí),有知識(shí)本體這樣一個(gè)組織體系,通過語言來傳播思想。人們把聽到的信息和頭腦中已有的信息結(jié)合起來進(jìn)行理解。
語音這一能力把我們和其他物種區(qū)分開來。語音調(diào)整著我們的關(guān)系,它能塑造思想、表達(dá)感受、溝通需求;能發(fā)起變革、挽救生命,激起愛恨情仇。
手機(jī)把云計(jì)算帶個(gè)了每一個(gè)人,只要隨身帶著麥克風(fēng),就在日常生活中真正掌握了人工智能這一工具。科學(xué)技術(shù)是賦能的核心要素,當(dāng)語音和人工智能結(jié)合的時(shí)候——
語音正在變成影響現(xiàn)實(shí)的通用遙控器,成為幾乎控制任何一種技術(shù)裝置的手段。語音把對(duì)人工智能的控制權(quán)交給了用戶,正在引領(lǐng)著“環(huán)境智能”的實(shí)現(xiàn)。在使用很多應(yīng)用程序的時(shí)候,人們會(huì)拋棄鍵盤和觸摸屏,而選擇更自然、更讓人自在的語音界面。語音技術(shù)創(chuàng)新了與客戶交互的方式,還創(chuàng)新了收集數(shù)據(jù)并以此創(chuàng)造利潤的方式。
智能語音改變了隱私、自主權(quán)和關(guān)系。人與人工智能之間的對(duì)話,可能是新文明到來的征兆。然而,效率的提高代價(jià)是獨(dú)立性的減弱。智能語音模糊了人與機(jī)器的界限,模糊了隱私、自主權(quán)和親密感的界限,還模糊了人際關(guān)系與數(shù)字關(guān)系、現(xiàn)實(shí)與虛擬、甚至可能是生與死的界限。
涉及智能語音的技術(shù)包括:自動(dòng)語音識(shí)別,自然語言理解,自然語言生成和語音合成。這些技術(shù)往往都把基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)作為一種重要的手段,多層結(jié)構(gòu)、數(shù)字的精細(xì)輸出和加權(quán)調(diào)整賦予了神經(jīng)網(wǎng)絡(luò)更多的功能。
語音識(shí)別系統(tǒng)很少能夠處理非常確定的情況,一般在猜測(cè)人們最有可能說什么,通過聲學(xué)模型(聲波分析)和語言模型(相當(dāng)于字典)配對(duì)來實(shí)現(xiàn)這一點(diǎn)。衡量語音識(shí)別系統(tǒng)準(zhǔn)確度的經(jīng)典方法是使用電話總機(jī)通話記錄的數(shù)據(jù)集。
計(jì)算機(jī)是用來處理數(shù)字而不是文字的,要處理語音就必須先用數(shù)字來表示語言。使用被稱為向量的有序字符串來表示文字,這種方法稱為詞嵌入。神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)區(qū)分單詞的屬性,并不需要171000維向量來表示一種語言,可以在不到1000個(gè)有意義的特征中完成這項(xiàng)工作。不僅單個(gè)單詞能被嵌入,向量也可以粗略地表示短語、句子和整個(gè)文檔。句子的意義是在詞匯的動(dòng)態(tài)流中被發(fā)現(xiàn)的,而這些詞匯同時(shí)又在修飾著其他復(fù)雜的詞匯。深度學(xué)習(xí)能夠幫助計(jì)算機(jī)理解句子的意思。
語言人工智能使用信息檢索比任何其他技術(shù)都多。例如,LSTM能夠準(zhǔn)確定位郵件中那些最有助于預(yù)先構(gòu)思回復(fù)的部分,而不會(huì)被那些不太重要的句子干擾。這或許就是做Google、百度等搜索公司的核心競爭力之一吧。
變幻莫測(cè)的發(fā)音和韻律意味著一個(gè)單詞可以以幾乎無限多的方式發(fā)音,這使得語音合成變得棘手。基于單元拼接的語言合成集合了真實(shí)人類的語音片段,這種參數(shù)化合成的方法一直是語音行業(yè)的“天鵝絨奶酪”。2017年8月Siri推進(jìn)了新的基于神經(jīng)網(wǎng)絡(luò)的語音合成方法——一個(gè)混合系統(tǒng)將合成的音頻片段和人工生成的音頻片段鏈接起來。
語音技術(shù)要適應(yīng)人類對(duì)話的復(fù)雜性和多樣性,面對(duì)一個(gè)核心挑戰(zhàn):變異性(下一步對(duì)話的走向)。社交對(duì)話中充滿了事實(shí)、細(xì)節(jié)和俚語,包含無限多的變化,例如話題的突然轉(zhuǎn)移、同語言一樣重要的情感元素等。另外,交談中會(huì)有停頓、矛盾、暗示和笑話。因此,社交對(duì)話是語音技術(shù)的終極挑戰(zhàn)之一。
互聯(lián)網(wǎng)上應(yīng)該有人們最好的朋友嗎?
當(dāng)聽到有人說話時(shí),我們會(huì)自動(dòng)做出判斷和假定,擁有講話的能力實(shí)質(zhì)上就具備了人的特質(zhì)。而語音助手在個(gè)性上應(yīng)該如何友善、如何有同情心、如何有智慧呢?需要設(shè)定它的年齡、性別、種族和社會(huì)背景嗎?自我應(yīng)該是真實(shí)生命專屬的,真實(shí)的人并不完全由他們的職業(yè)來定義,可以為語音助手打造獨(dú)特的身份。
語音助手必須能夠表達(dá)自己的脆弱,對(duì)事情感到不確定或擔(dān)心,才顯得它更像一個(gè)人。
谷歌發(fā)現(xiàn),擁有最高用戶留存率的語音應(yīng)用是那些擁有強(qiáng)烈角色性的應(yīng)用程序。對(duì)話設(shè)計(jì)的著力點(diǎn)在科學(xué)和藝術(shù)的連接上。平易近人的個(gè)性會(huì)鼓勵(lì)用戶學(xué)習(xí)使用語音助手的技能集。因此,語音助手擁有能夠鼓勵(lì)人們?cè)敢馀c之打交道的個(gè)性是很重要的。
當(dāng)用戶試圖得到一個(gè)問題的答案或完成一項(xiàng)任務(wù)時(shí),語音助手的回答必須是嚴(yán)謹(jǐn)客觀的。人類不是純粹尋求信息的生物,他們有情緒,會(huì)焦慮,都是需要應(yīng)對(duì)的。關(guān)系是由感情來維系的,情商并不局限于感受到對(duì)方的情緒。情感計(jì)算技術(shù)——從面部表情、詞匯選擇和音調(diào)上進(jìn)行情感分析——只能在有限的程度上提高互動(dòng)的質(zhì)量。微軟小娜感覺就像融合了Google Now 的世俗氣和Siri的迷人魅力。
個(gè)性化產(chǎn)品將推動(dòng)用戶的參與,但構(gòu)建角色是通過使用基于規(guī)則的人工創(chuàng)作方法進(jìn)行的。也就是說,賦予語音人工智能個(gè)性是有意義的,但選擇恰當(dāng)?shù)膫€(gè)性是很棘手的事。一個(gè)普遍的事實(shí)是,各個(gè)廠家的語音助手一般都是女性化的,這不是約定俗成,而是有著深層次的含義。
不論是亞馬遜、谷歌、微軟,還是國內(nèi)的百度、阿里和小米,面向語音助手的智能語音應(yīng)用都采取了基于代理(關(guān)于代理,可以參考當(dāng)你問代理機(jī)制的時(shí)候?指的是Agent,Proxy,Broker還是Delegate呢?)的架構(gòu),其巧妙之處在于它是模塊化的、可擴(kuò)展的,可以不斷地把新的業(yè)務(wù)系統(tǒng)囊入其中。
例如,Microsoft Bot Framework,開發(fā)者可以為任何商家創(chuàng)建一個(gè)自然語言的界面?;谠贫说娜斯ぶ悄芊?wù)能夠?qū)Υ颂岣咧С郑越馕稣Z言、組織對(duì)話、甚至還能分析出隱藏在人們語言之后的感情。
開發(fā)自然語言的應(yīng)用程序,即使是聚焦在非常具體的領(lǐng)域,可能也會(huì)非常困難。當(dāng)要把很多信息呈現(xiàn)出來時(shí)(如很多天的天氣預(yù)報(bào)或者可選航班),視覺呈現(xiàn)會(huì)比語音呈現(xiàn)更有效率。不僅著眼于已存在的智能手機(jī)應(yīng)用程序,而是更多地聚焦于創(chuàng)造一些能讓自然語言交流大顯身手的場景。
對(duì)于數(shù)據(jù)的應(yīng)用而言,結(jié)構(gòu)化數(shù)據(jù)是指以標(biāo)準(zhǔn)化的、計(jì)算機(jī)可讀的方式列出的信息數(shù)據(jù)庫。知識(shí)圖譜以類似生物學(xué)分類的方法來標(biāo)柱各種關(guān)系。為了解決知識(shí)圖譜的問題,轉(zhuǎn)而運(yùn)用了從非結(jié)構(gòu)化數(shù)據(jù)中尋找答案的系統(tǒng),包括網(wǎng)頁、掃描文檔和數(shù)字化圖書。智能語音可以越來越多地充當(dāng)回答問題的百科全書。微軟的概念圖譜在規(guī)模和覆蓋范圍上也一直在與谷歌的知識(shí)圖譜進(jìn)行競爭。如何將基于知識(shí)型的人工智能與機(jī)器學(xué)習(xí)型的人工智能兩種技術(shù)結(jié)合起來,創(chuàng)造一個(gè)混合性系統(tǒng)呢?
智能語音在實(shí)際的、以目標(biāo)為導(dǎo)向的應(yīng)用中已經(jīng)做的十分出色了。Siri對(duì)話調(diào)用的早期6個(gè)應(yīng)用領(lǐng)域是:短信、音頻和視頻通話、付款、拍照、鍛煉、乘車預(yù)定。在從傳統(tǒng)的搜索引擎到人工智能服務(wù)的轉(zhuǎn)變中,亞馬遜獲利最多,微軟贏得美名,谷歌損失最多,但仍令人敬畏。
智能語音正在被嘗試廣泛地應(yīng)用,例如,認(rèn)知系統(tǒng)會(huì)分析我們用語音和文字進(jìn)行交流時(shí)候的表現(xiàn),這些分析結(jié)果有助于發(fā)現(xiàn)精神性疾病各階段的跡象。然而,語音助手會(huì)對(duì)他們掌握的知識(shí)負(fù)責(zé)么?某一功能在未來的某個(gè)時(shí)候可能意味著一種責(zé)任。
凡事都有兩面性,智能語音應(yīng)用可能會(huì)存在哪些負(fù)面影響呢?人們有權(quán)感知真實(shí)的世界。盡管老人和兒童都傾向于將語音助手?jǐn)M人化,那么與擬人化產(chǎn)品互動(dòng)會(huì)如何影響人們隨后的社交欲望呢?用戶提出要求并獲得滿足,且無須任何付出,這可能不利于道德和情感的發(fā)展,尤其是對(duì)兒童而言,實(shí)際上,關(guān)于孩子們?nèi)绾慰创?dāng)今的聊天機(jī)器人的研究還很少。
從商業(yè)上看,用戶愿意為什么樣的交談付費(fèi)呢?為成為被選中的語音搜索結(jié)果而付費(fèi),只是一個(gè)時(shí)間問題,這種廣告可能更費(fèi)錢。正如一場貨架空間爭奪戰(zhàn)即將出現(xiàn),從理論上講,每個(gè)位置的價(jià)格都將更高,因?yàn)橥瑯佣嗟男枨蟊粩D壓到了更小的空間里。當(dāng)眾多競爭者都在努力讓客戶聽到自己的聲音時(shí),要占據(jù)市場的主導(dǎo)地位就變得更加困難。但目前的情況是,語音廣告似乎不太可能產(chǎn)生與在線廣告和移動(dòng)廣告相當(dāng)?shù)氖杖?,因?yàn)檫m合播放語音廣告的平臺(tái)比較少。需要注意的是,一項(xiàng)市場研究預(yù)測(cè),到2022年語音購物的規(guī)模將從目前的每年20億美元增加到每年400億美元,可惜書中并沒有給出應(yīng)用的出處,所以無從考證。
智能語音是一場為用戶設(shè)計(jì)單一界面的競賽。提供唯一權(quán)威答案的戰(zhàn)略意味著我們生活在一個(gè)簡單和絕對(duì)的世界里。對(duì)知識(shí)的控制是一種強(qiáng)大的力量,它正在被集中到少數(shù)精英團(tuán)隊(duì)的手中,控制權(quán)決定了語音流量的去向,這可能是潛在的另一個(gè)問題。
最后,你希望擁有自己記憶的語音助手嗎?
聯(lián)系客服