每天一個AI模型,讓思維提前和未來同步。
今天要介紹得AI模型,是基于全棧國產(chǎn)化基礎(chǔ)軟硬件平臺開發(fā)的多模態(tài)模型,換句話說就是國產(chǎn)化率100%。紫東·太初由武漢人工智能研究院、中國科學院自動化研究所和華為技術(shù)有限公司聯(lián)合研發(fā),并且獲得了2022年世界人工智能大會最高獎——“卓越人工智能引領(lǐng)獎”(SAIL,Superior AI Leader)。
首先,什么是多模態(tài)?
簡單的理解,平時我們?nèi)祟愑形甯?,視覺、聽覺、嗅覺、味覺和觸覺。傳統(tǒng)的AI模型往往是單獨演進的單模態(tài)技術(shù)模型,模型通用性較差,比如NLP類型的模型的只能處理文本數(shù)據(jù),CNN只能處理圖像數(shù)據(jù),如果你跟NLP模型說,我想要一幅“戴著頭盔的蒙娜麗莎畫”,大概率是無法生成的。
而紫東·太初是支持文本、視覺、語音不同模態(tài)間的高效協(xié)同的,也就是紫東·太初模型可以從視頻中“看出”內(nèi)容,也能根據(jù)文本生成視覺內(nèi)容。下面看一下中科院制作的介紹視頻,大家就一下子明白什么是多模態(tài)了。
紫東·太初,畫面中是與我們見面的虛擬人小初,僅僅通過聽工業(yè)生產(chǎn)中的特定音頻(未來甚至可以結(jié)合看視頻)就可以發(fā)現(xiàn)高頻聲音中,紗線斷頭的聲音,“非常的了不起”。
想要看完整版,可以看以下鏈接:
AI相關(guān)的新聞已經(jīng)讓我們見怪不怪了,尤其是在特定領(lǐng)域戰(zhàn)勝人類以后,比如AlphaGo在圍棋領(lǐng)域連續(xù)擊敗人類頂尖棋手。但是,距離真正的通用人工智能,也就是強人工智能,我們依然任重道遠。
想要讓AI進化出像人類一樣思考、像人類一樣擁有全面智能,可以通過學習從事多種類型工作的模型,目前的人工智能還處于初級階段,更重要的是這些模型只是繼承了人類的認知成果,比如識圖,只是通過不斷的訓練,在有監(jiān)督的情況下,實現(xiàn)特征識別。想要像人類一樣,也許首先需要像人類一樣形成不同感官之間的相互認知能力。
“能否在同一個維度、同一個空間,面對不同的場景提供同一個多模態(tài)大模型,擺脫'一專一能’,是實現(xiàn)人工智能通用化的基礎(chǔ)。
“紫東太初”可以將圖像、文本、語音等不同模態(tài)數(shù)據(jù)實現(xiàn)跨模態(tài)的統(tǒng)一表征和學習,突破了當前AI技術(shù)局限,具備部分類腦特性,從“一專一能”邁向“多專多能”。
——王金橋 中國科學院自動化研究所研究員、武漢人工智能研究院院長王金橋
能夠?qū)崿F(xiàn)視覺、文本、語音三個模態(tài)間的高效協(xié)同,性能全球領(lǐng)先
紫東太初的研發(fā)機構(gòu),中科院自動化所,已經(jīng)將模型的語言預(yù)訓練模型、語音預(yù)訓練模型和視覺預(yù)訓練模型在Gitee上開源,可以直接搜索。而經(jīng)過紫東太初的十億、百億、千億級別的參數(shù)大模型也將在未來開源。
通過上面小初從音頻中聽出紗線斷頭的聲音,就可以看出多模態(tài)模型在產(chǎn)業(yè)各界的潛力,比如在智能駕駛、工業(yè)質(zhì)檢、影視創(chuàng)作等領(lǐng)域,都具有廣闊的落地潛力。
感興趣的大家可以下載使用一下,比如其中提到的中文預(yù)訓練語言模型下的文本續(xù)寫功能和自動問答功能,就能幫助我們應(yīng)付一些實際工作中的場景。
這也是AIGC未來的大趨勢。
聯(lián)系客服