在NLP應(yīng)用落地的話題上,百度從來(lái)都不是一成不變的守舊者,而是根據(jù)行業(yè)現(xiàn)狀不斷變通,通過(guò)持續(xù)性的場(chǎng)景落地,逐步喚醒外界對(duì)NLP的價(jià)值認(rèn)可。
撰文 / Alter
編輯 / 胖爺
自然語(yǔ)言處理(NLP)是人工智能皇冠上的一顆明珠。
這樣的說(shuō)法在人工智能領(lǐng)域流傳許久,現(xiàn)實(shí)中發(fā)生的卻是這樣一幕:計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別等領(lǐng)域紛紛跑出了多個(gè)獨(dú)角獸,沖刺IPO的消息也時(shí)常出現(xiàn)??勺鳛椤盎使谏系拿髦椤钡腘LP領(lǐng)域,卻難見(jiàn)獨(dú)角獸的影子,大多數(shù)創(chuàng)業(yè)者還停留在A輪或B輪融資。
NLP如何走出困局?
在NLP領(lǐng)域深耕十年,被稱作“中國(guó)NLP燈塔”的百度給出了切實(shí)的答案。8月25日舉行的百度大腦語(yǔ)言與知識(shí)技術(shù)峰會(huì)上,伴隨著一系列語(yǔ)言與知識(shí)產(chǎn)品的發(fā)布與升級(jí),百度NLP的全景布局和鉆研了十幾年的核心技術(shù)一一亮相。
(百度CTO王海峰)
01
翻越認(rèn)知智能的高山
把時(shí)間調(diào)回一個(gè)多月前的ACL 2020。
作為NLP領(lǐng)域最負(fù)盛名的國(guó)際頂會(huì),ACL 2020收到了3429 篇論文投稿,其中被接收的779篇論文中有185 篇來(lái)自中國(guó)大陸,占比僅次于美國(guó)。距離2010年首次有中國(guó)科技企業(yè)的論文入選ACL,僅僅過(guò)去了10年時(shí)間。
除了論文數(shù)量的逐年增長(zhǎng),中國(guó)NLP學(xué)者的面孔也陸續(xù)在ACL上出現(xiàn)。
2013年,百度CTO王海峰成為ACL歷史上首位華人主席;2014 年,同樣來(lái)自百度的吳華出任 ACL 程序委員會(huì)主席;2015年,哈工大教育部語(yǔ)言語(yǔ)音重點(diǎn)實(shí)驗(yàn)室主任李生教授獲得 ACL 終身成就獎(jiǎng);2016 年,百度的趙世奇當(dāng)選 ACL 秘書長(zhǎng);2018年,ACL 宣布創(chuàng)建亞太區(qū)域分會(huì),王海峰擔(dān)任創(chuàng)始主席;2020 年,百度組織了 ACL 大會(huì)上首場(chǎng)同聲傳譯研討會(huì)……
以百度為代表的中國(guó)力量在NLP的世界舞臺(tái)上不斷出彩,本身就是一種話語(yǔ)權(quán)的象征,而左右話語(yǔ)權(quán)的核心因素正是學(xué)術(shù)成就。
僅以百度為例,過(guò)去十年是百度NLP高速增長(zhǎng)的十年,在NLP領(lǐng)域摘得了包括國(guó)家科技進(jìn)步獎(jiǎng)在內(nèi)的20多個(gè)獎(jiǎng)項(xiàng),在30多項(xiàng)國(guó)際競(jìng)賽中奪得冠軍,累計(jì)發(fā)表的學(xué)術(shù)論文超過(guò)300篇,專利申請(qǐng)高達(dá)2000多項(xiàng)。
其中最具代表性的無(wú)疑就是百度的語(yǔ)義理解技術(shù)與平臺(tái)文心(ERNIE)。
2019年12月,基于ERNIE 2.0改進(jìn)的模型在權(quán)威榜單GLUE上首次突破90大關(guān),超越人類基線3個(gè)點(diǎn),獲得全球第一;3個(gè)月后的人工智能頂級(jí)會(huì)議AAAI 2020上,NLP預(yù)訓(xùn)練領(lǐng)域入選論文《ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding》被選為Oral展示;2020年的世界人工智能大會(huì)上,ERNIE有了中文名字“文心”,并一舉斬獲最高獎(jiǎng)項(xiàng)SAIL獎(jiǎng)(Super AI Leader,卓越人工智能引領(lǐng)者)。
學(xué)術(shù)上的一系列成就,意味著百度已經(jīng)站在了NLP研究的最前沿,成為中國(guó)NLP領(lǐng)域的領(lǐng)軍者,并與谷歌、微軟一道被視為“全球AI三巨頭”。
可對(duì)于百度來(lái)說(shuō),技術(shù)的價(jià)值絕不只是在象牙塔中“高光”,在NLP的學(xué)術(shù)領(lǐng)域走進(jìn)殿堂的同時(shí),也在循序推進(jìn)應(yīng)用場(chǎng)景中的落地。
剛剛結(jié)束的百度大腦語(yǔ)言與知識(shí)技術(shù)峰會(huì)上,第一個(gè)重磅產(chǎn)品就是在NLP核心技術(shù)基礎(chǔ)上延展開發(fā)的文心ERNIE——語(yǔ)義理解技術(shù)與平臺(tái),針對(duì)傳統(tǒng)NLP定制常見(jiàn)的成本高、耗時(shí)長(zhǎng)、可迭代性差等短板,文心集成了優(yōu)秀的預(yù)訓(xùn)練模型、全面的NLP算法集、端到端開發(fā)套件和平臺(tái)化服務(wù),提供了一站式NLP開發(fā)與服務(wù)。
這或許就是百度給出的答案,想要推動(dòng)NLP的產(chǎn)業(yè)應(yīng)用,僅僅在學(xué)術(shù)上站在山巔還不夠,需要的是幫助整個(gè)行業(yè)翻越認(rèn)知智能的高山,以低門檻、低成本、高效率的平臺(tái)優(yōu)勢(shì)加速NLP的落地。
正如百度CTO王海峰所言,百度“致力于更好的與學(xué)術(shù)界、產(chǎn)業(yè)界攜手,推動(dòng)語(yǔ)言與知識(shí)技術(shù)發(fā)展,進(jìn)而推動(dòng)人工智能技術(shù)持續(xù)進(jìn)步,為產(chǎn)業(yè)持續(xù)升級(jí)、社會(huì)經(jīng)濟(jì)高質(zhì)量發(fā)展貢獻(xiàn)力量?!?/span>
02
走進(jìn)行業(yè)應(yīng)用的深處
以往在談及NLP的應(yīng)用門檻時(shí),最常見(jiàn)的回答有兩個(gè):一是技術(shù)相對(duì)落后的硬傷,二是缺乏相對(duì)獨(dú)立的場(chǎng)景。
對(duì)于第一個(gè)問(wèn)題,經(jīng)過(guò)大量真實(shí)應(yīng)用場(chǎng)景淬煉的文心ERNIE已經(jīng)給出了解決方案,全面降低了NLP的定制開發(fā)成本。
(百度集團(tuán)副總裁吳甜)
引用百度集團(tuán)副總裁吳甜分享的一組數(shù)據(jù):在數(shù)據(jù)標(biāo)注方面,文心的語(yǔ)義理解能力可以降低90%的數(shù)據(jù)標(biāo)注量;在算力方面,文心集成了ERNIE預(yù)訓(xùn)練模型,可以節(jié)省90%的算力;在開發(fā)時(shí)長(zhǎng)方面,傳統(tǒng)的開發(fā)方式需要一周的工作量,開發(fā)者在文心上僅需配置或編寫少量代碼,可以減少85%模型開發(fā)時(shí)長(zhǎng),進(jìn)而全面降低NLP定制開發(fā)的成本。
對(duì)于第二個(gè)問(wèn)題,針對(duì)NLP落地應(yīng)用時(shí)的高頻場(chǎng)景,百度新發(fā)布或升級(jí)了一站式的場(chǎng)景化解決方案:
其一,面向企業(yè)文本場(chǎng)景的智能文檔分析平臺(tái)TextMind。
語(yǔ)義理解是NLP的基礎(chǔ),也是應(yīng)用場(chǎng)景最廣泛的服務(wù)。比如大多數(shù)企業(yè)的商業(yè)合同仍采用人工審核的方式,存在效率低下、漏查漏報(bào)等商業(yè)風(fēng)險(xiǎn),TextMind基于OCR、NLP等技術(shù),可以對(duì)20類文檔進(jìn)行智能比對(duì)、解析、審核,與知識(shí)圖譜能力結(jié)合后能夠自動(dòng)分析合同中隱含的法律風(fēng)險(xiǎn)。
其二,面向媒體行業(yè)進(jìn)行場(chǎng)景升級(jí)的智能創(chuàng)作平臺(tái)。
百度智能創(chuàng)作平臺(tái)上線至今,已經(jīng)自動(dòng)創(chuàng)作了200多萬(wàn)篇文章、超過(guò)15萬(wàn)條短視頻、輔助創(chuàng)作的日均調(diào)用量超過(guò)35萬(wàn),累計(jì)落地20多家機(jī)構(gòu)媒體。同時(shí)圍繞策、采、編、審的媒體工作場(chǎng)景,百度推出智能策劃、智能采編、智能審校三大場(chǎng)景方案,幫助媒體降低創(chuàng)作成本,提升創(chuàng)作效率。
其三,面向交互場(chǎng)景升級(jí)的智能對(duì)話定制與服務(wù)平臺(tái)UNIT。
UNIT上線以來(lái)已經(jīng)服務(wù)了超過(guò)2.7萬(wàn)開發(fā)者,支撐了超過(guò)10萬(wàn)個(gè)智能對(duì)話應(yīng)用,積累的知識(shí)條目總量達(dá)到2.4億,與用戶進(jìn)行了超過(guò)4200億次交互。全新升級(jí)后的UNIT進(jìn)一步降低了任務(wù)式對(duì)話、智能問(wèn)答的定制成本,其中數(shù)據(jù)標(biāo)注成本降低了30%以上,并且融合了新一代對(duì)話引擎以提升交互體驗(yàn)。
其四,面向翻譯場(chǎng)景全新發(fā)布的AI同傳會(huì)議解決方案。
AI同傳并不是什么陌生的概念,百度在2017年就推出了同傳系統(tǒng),衍生出了桌面助手、翻譯APP等產(chǎn)品。AI同傳會(huì)議解決方案主打的亮點(diǎn)是全場(chǎng)景、全流程,只需要一臺(tái)電腦和一部手機(jī),就能迅速搭建出一套同傳服務(wù),不僅可以隨時(shí)對(duì)專業(yè)術(shù)語(yǔ)進(jìn)行干預(yù),還能自動(dòng)生成會(huì)議記錄。
值得一提的是,百度瞄準(zhǔn)的四個(gè)場(chǎng)景分別對(duì)應(yīng)了NLP領(lǐng)域的理解、生成、對(duì)話、翻譯,這樣的設(shè)計(jì)絕非無(wú)意之舉。
過(guò)去十年的時(shí)間里,百度語(yǔ)言與知識(shí)技術(shù)培養(yǎng)吸引了大量的全球頂尖人才,推出了以王海峰為代表的百度NLP“十年十人”。這些頂尖大牛們的技術(shù)信仰和探索精神,既向外界展示了百度的技術(shù)硬實(shí)力,也讓外界看到了百度加速NLP走向行業(yè)深處的拳拳之心。
03
產(chǎn)業(yè)智能的百度方案
至于百度這般賦能NLP行業(yè)的原因,可以借鑒百度CTO王海峰的觀點(diǎn):“在百度語(yǔ)言與知識(shí)技術(shù)的布局和發(fā)展中,我們始終在注意把握兩個(gè)趨勢(shì),即技術(shù)發(fā)展趨勢(shì)和產(chǎn)業(yè)發(fā)展趨勢(shì),并力爭(zhēng)引領(lǐng)趨勢(shì)?!?/span>
對(duì)于技術(shù)趨勢(shì)的理解,可以借用這樣一個(gè)比方:感知智能是AI感知外部環(huán)境的能力,包括聽覺(jué)、視覺(jué)和觸覺(jué),相當(dāng)于人類的耳朵、眼睛和手;認(rèn)知智能是AI理解、聯(lián)想、推理的能力,需要AI像人一樣思考并解決問(wèn)題。
倘若AI的進(jìn)化停留在感知智能,在認(rèn)知智能層面停滯不前,終將無(wú)法擺脫上兩次人工智能浪潮的宿命。如何加速認(rèn)知智能的越級(jí)??jī)H僅有仁人志士的奔走呼告還遠(yuǎn)遠(yuǎn)不夠,刺激一個(gè)行業(yè)走向繁榮的驅(qū)動(dòng)力量還是誘人的商業(yè)前景。
某種程度上說(shuō),NLP領(lǐng)域并不缺少琳瑯滿目的技術(shù),諸如語(yǔ)義分析、情感分析、機(jī)器翻譯、知識(shí)圖譜等層出不窮,可大多只是一個(gè)引擎或者一個(gè)特定功能上的服務(wù)。
百度所做的正是擦去蒙在“明珠”上的灰塵,然后融合新基建、產(chǎn)業(yè)智能化的趨勢(shì),將自身領(lǐng)先的NLP能力輸出給開發(fā)者與合作伙伴,并在不斷的創(chuàng)新和探索中找到了NLP規(guī)?;瘧?yīng)用的方法論:
首先是基礎(chǔ)技術(shù)的平臺(tái)化。NLP的算法和模型是典型的腦力勞動(dòng),結(jié)果就是在人才、資源和場(chǎng)景上占據(jù)優(yōu)勢(shì)的巨頭們有著絕對(duì)的話語(yǔ)權(quán)。從百度大腦的開放,到飛槳深度學(xué)習(xí)平臺(tái)的開源,再到文心ERNIE語(yǔ)義理解技術(shù)與平臺(tái)的上線,本質(zhì)上都是以平臺(tái)的形式對(duì)外賦能,降低整個(gè)行業(yè)的進(jìn)入門檻和開發(fā)成本。
其次是核心能力的場(chǎng)景化。一些企業(yè)可能并不具備底層開發(fā)的能力,百度的對(duì)策是針對(duì)文本分析、對(duì)話系統(tǒng)、機(jī)器翻譯等高頻場(chǎng)景推出一體化的解決方案,開發(fā)者只需要進(jìn)行簡(jiǎn)單的配置或修改。畢竟NLP的難點(diǎn)在于落地時(shí)牽涉到深度學(xué)習(xí)、情感模型等等,場(chǎng)景化消除了不必要的開發(fā)環(huán)節(jié)和資源投入。
然后是細(xì)分應(yīng)用的產(chǎn)品化。對(duì)于智能搜索、智能推薦、智慧城市、智慧醫(yī)療等各行各業(yè)的應(yīng)用,百度的策略是與合作伙伴一道打造獨(dú)立的產(chǎn)品,以零門檻的形式提供服務(wù)。比如以API、插件、APP等模式對(duì)外服務(wù)的百度翻譯,目前已經(jīng)支持40多萬(wàn)家第三方應(yīng)用,每天響應(yīng)超過(guò)千億字符的翻譯請(qǐng)求。
除此之外,為了解決NLP在模型魯棒性、可解釋性、跨模態(tài)語(yǔ)義理解等方面依然面臨的挑戰(zhàn),百度聯(lián)合中國(guó)計(jì)算機(jī)學(xué)會(huì)、中國(guó)中文信息學(xué)會(huì)共同發(fā)布了“千言”數(shù)據(jù)共建計(jì)劃。
同時(shí)百度技術(shù)委員會(huì)主席吳華發(fā)布了算力共享計(jì)劃,通過(guò)數(shù)據(jù)集的共建與算力的共享,繼而從語(yǔ)義理解、知識(shí)融合、跨模態(tài)融合等角度推動(dòng)技術(shù)進(jìn)步。
做一個(gè)總結(jié)的話,在NLP應(yīng)用落地的話題上,百度從來(lái)都不是一成不變的守舊者,而是根據(jù)行業(yè)現(xiàn)狀不斷變通,通過(guò)持續(xù)性的場(chǎng)景落地,逐步喚醒外界對(duì)NLP的價(jià)值認(rèn)可。當(dāng)整個(gè)行業(yè)都在重新審視NLP的時(shí)候,距離全面爆發(fā)已不再遙遠(yuǎn)。
04
寫在最后
曾經(jīng)被問(wèn)到百度NLP的理想和抱負(fù)是什么時(shí),王海峰凝練了十二個(gè)字的回答:“理解語(yǔ)言,擁有智能,改變世界”。
如今再來(lái)思考這句話的內(nèi)涵,無(wú)疑有了更為準(zhǔn)確的理解?!案淖兪澜纭钡膲?mèng)想顯然不是算法改變世界那般狹隘,在新基建和產(chǎn)業(yè)智能化的浪潮下,百度已經(jīng)確定了平臺(tái)型AI的定位,風(fēng)光無(wú)限的NLP部門一面在學(xué)術(shù)上推動(dòng)語(yǔ)言與知識(shí)技術(shù)發(fā)展,一面在應(yīng)用上幫助開發(fā)者們破除桎梏。
十年征程,百度NLP部門不僅在造一座燈塔,還在架一道技術(shù)通往現(xiàn)實(shí)世界的橋。
END
聯(lián)系客服