隨著GPT-4、StableDiffusion等模型多模態(tài)能力的快速發(fā)展,多模態(tài)大模型已成為大模型邁向通用人工智能(AGI)目標(biāo)的下一個(gè)前沿焦點(diǎn)。總體而言,面向圖像和文本的多模態(tài)生成能力可以大致分為兩類:
(1)在圖像到文本生成方面,以GPT-4為代表的多模態(tài)大模型可以對(duì)圖像進(jìn)行開(kāi)放域?qū)υ捄蜕疃韧评恚?/span>
(2)在文本到圖像的生成方面,以StableDiffusion為代表的多模態(tài)模型可以基于文本生成圖像內(nèi)容。這些多模態(tài)模式掀起的AIGC浪潮廣泛而深刻地改變了學(xué)術(shù)界和工業(yè)界的思想實(shí)踐。
然而,目前多模態(tài)大規(guī)模模型的成功很大程度上僅限于英語(yǔ)世界,而中文等其他非英語(yǔ)語(yǔ)言的多模態(tài)能力則明顯落后。這是因?yàn)榕c英語(yǔ)世界相比,中文等非英語(yǔ)語(yǔ)言的多模態(tài)數(shù)據(jù)嚴(yán)重匱乏,難以滿足多模態(tài)大模型對(duì)大規(guī)模高質(zhì)量圖文數(shù)據(jù)的需求。這些問(wèn)題使得多語(yǔ)言和多模式大型模型的構(gòu)建極具挑戰(zhàn)性。
為了解決上述挑戰(zhàn),我們提出利用高資源語(yǔ)言(如英語(yǔ))作為圖像信號(hào)與低資源語(yǔ)言(如中文)之間的橋梁,實(shí)現(xiàn)多語(yǔ)言、多模態(tài)大數(shù)據(jù)的快速泛化。模型功能,從而減輕對(duì)低資源語(yǔ)言的需求。較低模態(tài)對(duì)齊數(shù)據(jù)(圖形和文本對(duì)數(shù)據(jù))的依賴性。
通過(guò)類比人類的學(xué)習(xí)過(guò)程,我們可以直觀地理解方法:人類學(xué)習(xí)者只需通過(guò)母語(yǔ)與視覺(jué)信號(hào)之間的對(duì)應(yīng)關(guān)系,以及母語(yǔ)與不同語(yǔ)言之間的對(duì)應(yīng)關(guān)系,就可以自然地建立不同語(yǔ)言的視覺(jué)信號(hào)語(yǔ)言統(tǒng)一認(rèn)知。這是由于不同的自然語(yǔ)言符號(hào)系統(tǒng)在很大程度上已經(jīng)進(jìn)化到描述同一個(gè)客觀世界,這為多語(yǔ)言和多模態(tài)能力的快速泛化提供了基礎(chǔ)。
我們?cè)?/span>LLaVA標(biāo)準(zhǔn)英語(yǔ)測(cè)試集和翻譯的中文測(cè)試集上評(píng)估了模型。評(píng)估基準(zhǔn)考察模型在開(kāi)放域?qū)υ?、圖像細(xì)節(jié)描述和復(fù)雜推理方面的表現(xiàn),并使用GPT-4進(jìn)行評(píng)分。
可以觀察到,VisCPM-Chat在不使用任何中文圖文對(duì)預(yù)訓(xùn)練數(shù)據(jù)的情況下,在中文多模態(tài)能力上取得了最好的平均性能,并且在一般領(lǐng)域?qū)υ捄蛷?fù)雜推理中表現(xiàn)良好,同時(shí)也表現(xiàn)出了良好的英語(yǔ)多模態(tài)能力。
在上述平衡的中英雙語(yǔ)能力(VisCPM-Chat-balance)的基礎(chǔ)上,我們?cè)陬A(yù)訓(xùn)練階段額外添加了20M個(gè)清洗后的原生中文圖文對(duì)和120M個(gè)翻譯成中文的圖文對(duì),可以實(shí)現(xiàn)多語(yǔ)言Modal能力的進(jìn)一步增強(qiáng)(VisCPM-Chat-zhplus)。
VisCPM-Chat展示了令人印象深刻的圖像理解能力,并且能夠在對(duì)話中運(yùn)用世界知識(shí)和常識(shí)知識(shí)。例如下圖中,VisCPM可以識(shí)別染色的地圖和肖像,并正確理解染色所代表的不同含義。此外,VisCPM-Chat也具有良好的中國(guó)特色。比如可以用李白的詩(shī)來(lái)描述和解讀黃河的景象。
漢英雙語(yǔ)學(xué)生圖模型
VisCPM-繪制
VisCPM-Paint使用CPM-Bee(10B)作為文本編碼器,UNet作為圖像解碼器,通過(guò)擴(kuò)散模型訓(xùn)練目標(biāo)融合語(yǔ)言和視覺(jué)模型。在訓(xùn)練過(guò)程中,語(yǔ)言模型參數(shù)始終保持固定。我們使用StableDiffusion2.1的UNet參數(shù)初始化視覺(jué)解碼器,并通過(guò)逐漸解凍關(guān)鍵橋接參數(shù)將其與語(yǔ)言模型融合。該模型在LAION2B英語(yǔ)文本到文本數(shù)據(jù)上進(jìn)行訓(xùn)練。
我們?cè)跇?biāo)準(zhǔn)圖像生成測(cè)試集MSCOCO上采樣了30000張圖像,并計(jì)算了常用的評(píng)價(jià)圖像生成指標(biāo)FID(FréchetInceptionDistance)來(lái)評(píng)價(jià)生成圖像的質(zhì)量。與VisCPM類似,我們發(fā)現(xiàn)得益于CPM-Bee的雙語(yǔ)能力,VisCPM-Paint可以僅通過(guò)英文圖像-文本對(duì)進(jìn)行訓(xùn)練,并泛化以實(shí)現(xiàn)良好的中文文本到圖像生成能力,達(dá)到了最佳效果中國(guó)開(kāi)源模型。在中英文平衡能力(VisCPM-Paint-balance)的基礎(chǔ)上,進(jìn)一步添加20M清洗后的原生中文圖文數(shù)據(jù)和120M翻譯成中文的圖文數(shù)據(jù),實(shí)現(xiàn)了中文文本到圖像的生成能力。模型可以得到進(jìn)一步的提升(VisCPM-Paint-zhplus)。
為了促進(jìn)多模態(tài)大模型開(kāi)源社區(qū)及相關(guān)研究領(lǐng)域的發(fā)展,我們免費(fèi)開(kāi)源VisCPM系列的所有模型,歡迎個(gè)人和研究用途。未來(lái)我們還將把VisCPM集成到huggingface代碼框架中,并逐步完善安全模型、支持快速網(wǎng)頁(yè)部署、支持模型量化功能、支持模型微調(diào)等功能,歡迎繼續(xù)關(guān)注。
聯(lián)系客服