微軟在機器學習與自然語言處理方面積累了大量的資料,同時近1年來,也逐步開放了大量的在線資源。例如在我博客前幾個月介紹的Infer.NET項目就是其中1個項目。今天給大家介紹的是“微軟牛津計劃”.
1.微軟牛津計劃介紹
微軟牛津計劃(網(wǎng)址:https://cn.projectoxford.ai/#) 提供了一組基于Rest架構(gòu)的API和SDK工具包,幫助開發(fā)者輕輕松松使用微軟的自然數(shù)據(jù)理解能力為自己的解決方案增加智能服務。利用微軟牛津計劃構(gòu)建你自己的解決方案,支持任意語言及任意開發(fā)平臺。主要提供了4個自然語言處理方面的核心問題解決方案:
1)人臉識別:微軟最先進的人臉算法,以云平臺為基礎(chǔ),檢測和識別圖片中的人臉。為您的移動應用和桌面應用提供人臉算法的技術(shù)支持。
2)語音識別:Speech API為開發(fā)者提供最先進的語音處理算法。通過這些API,開發(fā)者可以輕松地為自己的應用添加語音操作功能。在一定條件下,這些API還可以實現(xiàn)與用戶之間的實時交互。
3)計算機視覺:Computer Vision APIs為開發(fā)者提供最頂尖的圖像處理算法。通過這些API你可以獲得基于圖像視覺內(nèi)容的各種信息并生成理想的縮略圖。
4)語言理解智能服務:語言理解智能服務(LUIS)用快速有效的方式幫助開發(fā)者在應用中增加語言理解能力。通過LUIS你可以使用已經(jīng)構(gòu)建好的世界頂級模型。如果你有專門的需求,LUIS也可以指導你快速創(chuàng)建自己的模型。
SDK下載地址:https://cn.projectoxford.ai/sdk
上面是基本介紹,每一個應用微軟都提供了SDK工具包,包括文檔和例子演示呢。其應用場景有:
下面稍微介紹一些每個功能的一些細節(jié)把。需要詳細了解和應用的,去官網(wǎng)查看資料,有中文版官網(wǎng)。
看數(shù)據(jù)精華,關(guān)注數(shù)盟微信
2.人臉識別(Face APIs)介紹
人臉識別特指利用分析比較人臉視覺特征信息進行身份鑒別的計算機技術(shù)。人臉識別是一項熱門的計算機技術(shù)研究領(lǐng)域,可以將人臉明暗偵測,自動調(diào)整動態(tài)曝光補償,人臉追蹤偵測,自動調(diào)整影像放大;它屬于生物特征識別技術(shù),是對生物體(一般特指人)本身的生物特征來區(qū)分生物體個體。
微軟的Face APIs提供了人臉識別領(lǐng)域主要的應用場景,如:
1)人臉檢測:檢測圖片中的人臉,以方框標記臉部位置,識別包括人臉特征點、姿勢、性別、年齡等在內(nèi)的人臉屬性。Face API 提供高精度的人臉定位檢測,在一張圖片里,最多可以檢測到64張人臉。 進行人臉檢測,只需上傳一整張JPEG圖片,或提供網(wǎng)頁JPEG圖片對應的URL即可。檢測到的人臉會被標記上方框(左側(cè)、頂部、寬度和高度),用像素點標明臉部在圖片中的位置。 根據(jù)需要,人臉檢測還可以從每張人臉上提取諸如姿勢、性別、年齡等一系列與臉部有關(guān)的屬性。如下圖所以的例子:
通常來講,人臉識別就是從被測的許多人臉中自動辨識或驗證某一個人的功能。 Face API 提供4種識別功能:人臉驗證、相似人臉搜索、人臉自動分組和身份確認。 現(xiàn)在人臉識別已廣泛用于安全系統(tǒng)、名人識別和相片標簽等應用。
2)人臉驗證:核對兩張人臉是否屬于同一個人,并給出置信度評分。
3)相似人臉搜索:從多張人臉中找出一些與所查人臉相似的人臉。
4)人臉分組:基于臉部相似程度,將多張人臉劃分成不同的組。
5)人臉辨識:查詢某張人臉,看其與用戶提供的人臉數(shù)據(jù)中的何人相匹配。
這里有適用與C#的Face API入門教程:https://cn.projectoxford.ai/doc/face/Get-Started/csharp
人臉檢測演示網(wǎng)址:https://cn.projectoxford.ai/demo/face#detection
人臉驗證演示網(wǎng)址:https://cn.projectoxford.ai/demo/face#verification
3.語音識別(Speech APIs)介紹
二十年前,微軟為 Windows 95 的用戶發(fā)布了首個 Speech API (SAPI 1.0)。 如今,微軟帶來一個新的公開 Speech API (Beta),通過 Azure, 基于云計算平臺,并成為 牛津計劃 的一部分。牛津計劃是為開發(fā)者提供 Speech 和 Vision API 的云平臺,支持廣泛的多通道智能服務和應用程序,尤其是針對使用 語音轉(zhuǎn)換文本 和 文本轉(zhuǎn)換語音 這兩種功能。 此外, LUIS (語言理解智能服務) 也提供給開發(fā)者訪問最先進的語言理解能力。 根據(jù)牛津計劃,Windows Speech API 更新后也適用于 Windows 10。 兩者結(jié)合后, 牛津計劃 和 Windows 10 將形成一個完整并且全面的平臺,為具有任意背景的開發(fā)者提供和支持廣泛的語音場景和應用程序。微軟的Speech APIs提供了完整語音識別,語意識別和語音合成功能。
1)語音識別:語音轉(zhuǎn)換文本 該 API 可以直接打開并識別來自麥克風的實時語音,或者是其他來源的實時語音以及從文件內(nèi)獲取的音頻。 在任何情況下,都可以通過實時流將語音傳送到服務器,服務器再將部分識別結(jié)果傳送回來。
2)語音意圖識別:將語音轉(zhuǎn)換為意圖 該功能與語音轉(zhuǎn)換為文本相似。區(qū)別在于語音意圖識別功能除了可以從語音輸入返回識別的文字,服務器還可以返回關(guān)于語音輸入的結(jié)構(gòu)化信息, 這樣應用程序便可以輕松地解析說話者的意圖, 以驅(qū)動下一步操作。 用于意圖識別的訓練模型是由牛津計劃 LUIS 服務提供的。
3)語音合成:將文本轉(zhuǎn)換成語音。 當應用程序需要對用戶 “說話“時,此API可以將該應用程序產(chǎn)生的文本轉(zhuǎn)換為語音,然后播放給用戶。
語音與文本轉(zhuǎn)換演示:https://cn.projectoxford.ai/demo/speech#recognition
語音識別 API 入門:https://cn.projectoxford.ai/doc/speech/Get-Started/csharp
4.計算機視覺(Computer Vision APIs)介紹
計算機視覺是一門研究如何使機器”看”的科學,更進一步的說,就是是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺,并進一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。Computer Vision APIs為開發(fā)者提供最頂尖的圖像處理算法。通過這些API你可以獲得基于圖像視覺內(nèi)容的各種信息并生成理想的縮略圖。主要應用方面有:
1)圖像分析:本模塊將基于所輸入圖像的視覺內(nèi)容分析出圖像的視覺特征——圖像類別,色情檢測,主色調(diào)等等。使用adult和racy特征屬性可以自動限制色情內(nèi)容,保護你的用戶。使用圖像的類別檢測,可以為圖像添加標簽,進而把圖像分成不同群組。如下面的特征分析例子:
2)生成縮略圖:對于輸入的圖像,生成高品質(zhì)和高存儲效率的縮略圖??s略圖功能可以用最適合你需求的方式呈現(xiàn)圖像。通過智能裁剪,獲得與圖片原始比例不同的縮略圖,同時保留你想要的視覺區(qū)域。
3)光學字符識別:光學字符識別(OCR)可以在圖像中檢測文本,并把識別的文字提取到一個可供機器使用的字符流中。對嵌入的圖像識別出文字并可供搜索。用戶可以直接拍攝文本的圖片,無需手動轉(zhuǎn)錄文字,從而節(jié)省時間和精力。
4)想要一個端到端的圖片內(nèi)容監(jiān)測解決方案嗎?監(jiān)測圖片內(nèi)容,基于場景定制的內(nèi)容監(jiān)控服務集合了牛津計劃API和其他相關(guān)技術(shù),可以對違規(guī)/違法圖像主動發(fā)出警報。創(chuàng)建和維護自定義圖像和文本黑名單,并可自動報警。模糊匹配可以檢測到你已經(jīng)列入黑名單的內(nèi)容。
5)檢測兒童剝削:使用PhotoDNA云服務 自動檢測和報告兒童剝削圖像的分布。當有非法圖片上傳到你的平臺時,區(qū)分并標記這些非法圖片。
該服務在圖片被修改的情況下仍可進行識別。
視覺分析演示網(wǎng)址:https://cn.projectoxford.ai/demo/visions#Analysis
視覺分析APIs文檔:https://cn.projectoxford.ai/doc/vision/visual-features
5.語言理解智能服務(LUIS)介紹
語言理解智能服務(LUIS)用快速有效的方式幫助開發(fā)者在應用中增加語言理解能力。通過LUIS你可以使用已經(jīng)構(gòu)建好的世界頂級模型。如果你有專門的需求,LUIS也可以指導你快速創(chuàng)建自己的模型。微軟提供的APIs有以下功能特點:
1)創(chuàng)建語言理解模型:為你的應用創(chuàng)建模型以更好的理解意圖,比如“把燈打開”或“開始新的跑步/步行/徒步旅行/騎自行車”這樣的實體。 你可以通過深入的性能可視化調(diào)整你的模型。
2)使用來自Bing和Cortana的預構(gòu)建的世界頂級模型:通過預構(gòu)建的世界頂級模型來識別實體,譬如地點、時間、數(shù)字、溫度;或處理常見的請求,譬如“設(shè)置上午八點的鬧鐘”。用Cortana的理解模型快速添加個人助理功能。
3)將你的模型部署到HTTP終端:僅需一步即可將你的模型部署到HTTP終端。LIUS會為你返回容易使用的JSON。
4)在任意設(shè)備上激活模型:只要有網(wǎng)絡(luò)連接,你可以從任意終端激活你的語言理解模型,不管它是手機、平板電腦或其他設(shè)備。
5)輕松維護模型:審查輸入到你的應用中的命令從而發(fā)現(xiàn)和改正錯誤。
該服務還不完善,并沒有完全開放,持續(xù)關(guān)注中吧。
6.資源
資源直接訪問官方網(wǎng)址即可,SDK頁面:https://cn.projectoxford.ai/sdk 提供了所有服務的不同類型的 SDK,包括案例,文檔等資料。
人工智能、以及自然語言處理相關(guān)的技術(shù)會越來越成熟,相關(guān)的應用也會越來越多,多了解點,趕上下一波互聯(lián)網(wǎng)熱潮,看看怎么樣,微軟的技術(shù)真心不錯,相比國內(nèi)那些企鵝,百毒的開放平臺,真的是屌爆了。。。。