AI模型 | 紫東·太初，多模態(tài)讓AI理解能力更接近人類

2023.01.25 重慶

每天一個AI模型，讓思維提前和未來同步。

今天要介紹得AI模型，是基于全棧國產(chǎn)化基礎(chǔ)軟硬件平臺開發(fā)的多模態(tài)模型，換句話說就是國產(chǎn)化率100%。紫東·太初由武漢人工智能研究院、中國科學院自動化研究所和華為技術(shù)有限公司聯(lián)合研發(fā)，并且獲得了2022年世界人工智能大會最高獎——“卓越人工智能引領(lǐng)獎”(SAIL，Superior AI Leader)。

全球首個三模態(tài)千億參數(shù)大模型

首先，什么是多模態(tài)？

簡單的理解，平時我們?nèi)祟愑形甯?，視覺、聽覺、嗅覺、味覺和觸覺。傳統(tǒng)的AI模型往往是單獨演進的單模態(tài)技術(shù)模型，模型通用性較差，比如NLP類型的模型的只能處理文本數(shù)據(jù)，CNN只能處理圖像數(shù)據(jù)，如果你跟NLP模型說，我想要一幅“戴著頭盔的蒙娜麗莎畫”，大概率是無法生成的。

而紫東·太初是支持文本、視覺、語音不同模態(tài)間的高效協(xié)同的，也就是紫東·太初模型可以從視頻中“看出”內(nèi)容，也能根據(jù)文本生成視覺內(nèi)容。下面看一下中科院制作的介紹視頻，大家就一下子明白什么是多模態(tài)了。

重播

播放

00:41/00:41正在直播

00:00

進入全屏

50

畫中畫

紫東·太初，畫面中是與我們見面的虛擬人小初，僅僅通過聽工業(yè)生產(chǎn)中的特定音頻（未來甚至可以結(jié)合看視頻）就可以發(fā)現(xiàn)高頻聲音中，紗線斷頭的聲音，“非常的了不起”。

想要看完整版，可以看以下鏈接：

多模態(tài)，讓AI模型進化出真正和人腦類似的特性

AI相關(guān)的新聞已經(jīng)讓我們見怪不怪了，尤其是在特定領(lǐng)域戰(zhàn)勝人類以后，比如AlphaGo在圍棋領(lǐng)域連續(xù)擊敗人類頂尖棋手。但是，距離真正的通用人工智能，也就是強人工智能，我們依然任重道遠。

想要讓AI進化出像人類一樣思考、像人類一樣擁有全面智能，可以通過學習從事多種類型工作的模型，目前的人工智能還處于初級階段，更重要的是這些模型只是繼承了人類的認知成果，比如識圖，只是通過不斷的訓練，在有監(jiān)督的情況下，實現(xiàn)特征識別。想要像人類一樣，也許首先需要像人類一樣形成不同感官之間的相互認知能力。

“能否在同一個維度、同一個空間，面對不同的場景提供同一個多模態(tài)大模型，擺脫'一專一能’，是實現(xiàn)人工智能通用化的基礎(chǔ)。
“紫東太初”可以將圖像、文本、語音等不同模態(tài)數(shù)據(jù)實現(xiàn)跨模態(tài)的統(tǒng)一表征和學習，突破了當前AI技術(shù)局限，具備部分類腦特性，從“一專一能”邁向“多專多能”。
——王金橋中國科學院自動化研究所研究員、武漢人工智能研究院院長王金橋