????????隨著數(shù)字化時代的到來,文檔圖像處理技術(shù)在各行各業(yè)扮演著越來越重要的角色。在2023第十二屆中國智能產(chǎn)業(yè)高峰論壇(CIIS?2023)的專題論壇上,合合信息智能技術(shù)平臺事業(yè)部副總經(jīng)理、高級工程師丁凱博士分享了當(dāng)前文檔圖像處理面臨的困難,并討論大模型在該領(lǐng)域的突破和新探索。
????????虛竹哥把其中的要點,還有我個人的理解整理下,分享給大家~
????????文檔圖像處理是指通過計算機對文檔圖像進(jìn)行分析和理解,實現(xiàn)自動化的信息提取和處理。文檔圖像可以是掃描件、照片或者其他形式的圖像文件。文檔圖像處理可以包括文本識別、布局分析、實體關(guān)系理解、圖像分割等任務(wù)。
????????文檔圖像處理在許多領(lǐng)域都具有重要應(yīng)用,例如自動化辦公、金融、教育等。通過自動化處理,可以提高工作效率,減少人工錯誤,提供更快速、準(zhǔn)確的信息檢索和提取。
????????首先是場景及版式的多樣性,不同類型的文檔有不同的版式和布局,這給文檔圖像的分析和理解帶來了很大的挑戰(zhàn)。
????????其次是形狀的不可控性,文檔的形狀可能是曲線、折疊或損壞的,這使得文檔的識別和還原變得困難。
此外,采集設(shè)備的不確定性和用戶需求的多樣性也增加了文檔圖像處理的復(fù)雜度。
高精度:金融票據(jù)
可理解:教育、檔案、辦公
最后是光照的不可控性,文檔的拍攝環(huán)境中光照的亮度和角度也會對圖像質(zhì)量產(chǎn)生重要影響。
????????合合信息一直專注于通過智能文字識別和商業(yè)大數(shù)據(jù)領(lǐng)域的核心技術(shù),聚焦于文檔圖像分析識別和文字理解領(lǐng)域,在人工智能方向深耕17年,合合信息你可能沒聽過,但他家的產(chǎn)品你應(yīng)該聽過:在app?store上搜索掃描,第一個產(chǎn)品就是。
掃描全能王免費版在App?Store上105個國家和地區(qū)(含中國)的效率類免費應(yīng)用下載量排行榜位列第一。
????????文檔圖像的分析、識別與理解是研究的重要主題。在進(jìn)行文檔圖像分析與預(yù)處理過程中,?需要進(jìn)行切邊增強、去摩爾紋、彎曲矯正、圖片壓縮以及PS檢測等步驟,?以提高后續(xù)解析與識別的準(zhǔn)確性。文檔解析與識別包括文字識別、表格識別以及電子檔解析等任務(wù),?以實現(xiàn)對文檔內(nèi)容的精準(zhǔn)提取和表達(dá)。版面分析與還原涉及元素檢測、元素識別以及版面還原等核心環(huán)節(jié),?以精準(zhǔn)還原文檔的原始版面信息。
????????文檔信息抽取與理解是研究的重要環(huán)節(jié)之一,?通過信息抽取技術(shù)可以針對文檔中的特定信息進(jìn)行提取和整理,?回答用戶提出的問題或者自動生成文檔摘要。另外,?AI安全問題也是不容忽視的方面,?需要關(guān)注篡改分類、篡改檢測、合成檢測以及AI生成檢測等技術(shù),?以保障文檔的真實性和完整性。
????????此外,?知識化、存儲檢索和管理也是研究的重要方向之一。通過深入挖掘文檔中的實體關(guān)系、文檔主題等信息,?可以建立知識圖譜以實現(xiàn)文檔的可視化表達(dá)和快速檢索。同時,?結(jié)合ERP/OA以及SAP等技術(shù),?可以構(gòu)建高效、智能的文檔管理系統(tǒng),?以支持日常辦公和決策。
????????文檔圖像大模型在近年來取得了顯著的進(jìn)展,其中最引人注目的是一些專有模型,如LayoutLM系列、UDOP和LiLT等。這些模型基于多模態(tài)Transformer?Encoder進(jìn)行預(yù)訓(xùn)練和下游任務(wù)微調(diào),在文檔圖像處理方面具有顯著的性能。
????????LayoutLM系列是Microsoft推出的一系列模型,包括LayoutLM、LayoutLMv2、LayoutLMv3和LayoutXLM。這些模型利用多模態(tài)Transformer?Encoder進(jìn)行預(yù)訓(xùn)練,并通過對下游任務(wù)進(jìn)行微調(diào)來提高性能。
????????UDOP是Microsoft提出的另一個文檔處理大一統(tǒng)模型,它采用統(tǒng)一的Vision-Text-Layout編碼器、分離的Text-Layouot和Vision解碼器。這個模型旨在將各種文檔處理任務(wù)統(tǒng)一到一個框架下,提高處理效率和精度。
????????LiLT是合合信息與華南理工大學(xué)正在研究的一種視覺模型與大語言模型解耦聯(lián)合建模的多模態(tài)信息抽取新框架。該框架通過雙向互補注意力模塊(BiCAM)融合視覺與語言模型,在多語言小樣本/零樣本場景下具有優(yōu)越的性能。有趣的是,LiLT可以靈活地與單語言或多語言的文本預(yù)訓(xùn)練模型聯(lián)合解決下游任務(wù),并且在單語言下游任務(wù)上也表現(xiàn)出優(yōu)越的性能(特別是在訓(xùn)練樣本較少的數(shù)據(jù)集上)。在常用的單語言數(shù)據(jù)集上,LiLT的表現(xiàn)總體上也優(yōu)于LayoutXLM。
????????最后,Donut是NAVER開發(fā)的一種無需OCR的用于文檔理解的Transformer模型。這個模型的開發(fā)可能會簡化文檔處理流程,提高處理的準(zhǔn)確性和效率。
????????BLIP2是Salesforce團隊于2023年1月發(fā)布的一種模型,它采用了輕量級的查詢Transformer將預(yù)訓(xùn)練的圖像編碼器和LLM解碼器進(jìn)行連接。在表征學(xué)習(xí)階段,該模型通過圖文對比學(xué)習(xí)、圖像文本生成和圖像文本匹配三個任務(wù)來讓Q-Former提取文本相關(guān)的特征。在生成預(yù)訓(xùn)練階段,視覺編碼器和Q-Former被連接到凍結(jié)的LLM上,并通過生成式訓(xùn)練將視覺特征與LLM對齊。
????????Flamingo是DeepMind于2022年發(fā)表的一種模型,它在LLM中增加了Gated?Attention層以引入視覺信息。該模型凍結(jié)了Vision?Encoder和LLM,并在Visual?Encoder后加入了Perceiver?Resampler模塊以加強視覺表征。此外,還在LLM的每層之前加入了Gated?xattn-dense模塊以加強跨模塊信息交互。2023年3月,LAION團隊發(fā)布了OpenFlamingo,它是DeepMind的Flamingo模型的開源復(fù)制品。
????????LLaVA是Microsoft于最近發(fā)布的一種模型,它將CLIP?ViT-L和LLaMA采用全連接層進(jìn)行連接。該模型使用GPT-4和Self-Instruct生成高質(zhì)量的158k?instruction?following數(shù)據(jù)。
????????最后,MiniGPT-4是一種視覺部分采用ViT+Q-Former、語言模型部分采用Vicuna且視覺和語言模塊間采用全連接層銜接的模型。
????????多模態(tài)大模型在處理顯著文本時表現(xiàn)出色,但它們在處理細(xì)粒度文本時卻往往效果不佳。這是由于受到視覺編碼器的分辨率和訓(xùn)練數(shù)據(jù)的限制。盡管現(xiàn)有的模型已經(jīng)取得了很大進(jìn)展,但是它們?nèi)匀淮嬖谝恍┚窒扌浴?/span>
????????視覺編碼器的分辨率對于多模態(tài)大模型的性能有很大的影響。由于視覺信息往往包含大量的細(xì)節(jié)和復(fù)雜性,因此需要高分辨率的編碼器來捕捉這些細(xì)節(jié)。但是,高分辨率編碼器的計算成本也相應(yīng)較高,這會限制模型的訓(xùn)練速度和效率。
????????訓(xùn)練數(shù)據(jù)也是限制多模態(tài)大模型性能的一個因素。現(xiàn)有的模型主要依賴于大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,而這些數(shù)據(jù)集往往只包含一些大規(guī)模的圖像和文本。因此,這些模型可能無法很好地處理一些細(xì)粒度文本,因為它們沒有在訓(xùn)練數(shù)據(jù)集中見過這些類型的文本。
????????多模態(tài)大模型的處理方式也是影響其性能的因素之一。由于這些模型主要關(guān)注圖像和文本之間的跨模態(tài)對應(yīng)關(guān)系,因此它們可能忽略了文本內(nèi)部的一些細(xì)粒度信息。這使得這些模型在處理一些需要關(guān)注細(xì)節(jié)的細(xì)粒度文本時表現(xiàn)不佳。
????????Google的Pix2Seq方法將目標(biāo)檢測任務(wù)轉(zhuǎn)化為一個圖像到序列的語言建模任務(wù),通過語言建模的方式,讓模型學(xué)習(xí)到從圖像中抽取有用的特征,并進(jìn)行合理的分類,從而完成目標(biāo)檢測任務(wù)。該方法采用了深度學(xué)習(xí)技術(shù),通過對大量的數(shù)據(jù)進(jìn)行訓(xùn)練,使得模型可以快速、準(zhǔn)確地識別出圖像中的各種目標(biāo)。
????????繼Pix2Seq之后,Google又提出了一個更加完善的框架Pix2Seq?v2。Pix2Seq?v2是一個統(tǒng)一的基于序列預(yù)測的視覺任務(wù)框架,它可以用于解決各種視覺問題,如目標(biāo)檢測、圖像分類、圖像分割等。該框架采用了全新的注意力機制,使得模型可以更好地聚焦于輸入圖像的關(guān)鍵區(qū)域,從而更好地完成任務(wù)。
????????與Google不同,Microsoft提出了一個叫做UniTAB的多模態(tài)編碼器(圖像&文本)+自回歸解碼器的方法,它可以完成多種Vision-Language?(VL)?任務(wù)。該方法將圖像和文本兩種不同的模態(tài)進(jìn)行有機結(jié)合,利用自回歸解碼器進(jìn)行預(yù)測,從而實現(xiàn)了更加高效和準(zhǔn)確的目標(biāo)檢測和圖像分類任務(wù)。
????????Meta也提出了一種新的方法NOUGAT。該方法通過采用Swin?Transformer和Transformer?Decoder實現(xiàn)了從文檔圖像到文檔序列的輸出。Swin?Transformer是一種全新的局部與全局信息交互的Transformer結(jié)構(gòu),具有更好的視覺特征表達(dá)能力。而Transformer?Decoder則可以將上文所提到的各種視覺特征轉(zhuǎn)換成文本形式,使得人們可以更加方便地理解圖像內(nèi)容。
????????文檔圖像識別分析是一個涵蓋多種任務(wù)的綜合性領(lǐng)域,這些任務(wù)可以定義為序列預(yù)測的形式。無論是文本、段落、版面分析、表格還是公式等,都可以通過基于序列預(yù)測的模型進(jìn)行處理。
????????在進(jìn)行OCR任務(wù)時,我們可以使用不同的prompt來引導(dǎo)模型,以便完成各種不同的任務(wù)。例如,我們可以通過輸入特定的指令或上下文信息,來讓模型更好地理解和識別文檔內(nèi)容。
????????除了基本的字符和詞匯識別,OCR技術(shù)還可以支持篇章級的文檔圖像識別分析。這意味著可以對整個文檔進(jìn)行掃描和分析,并以Markdown、HTML或純文本等標(biāo)準(zhǔn)格式輸出。這種方法可以幫助我們更高效地組織和處理文檔內(nèi)容,從而大大提高工作效率。
????????近年來,LLM(大型語言模型)在自然語言處理領(lǐng)域取得了很大的進(jìn)展。同樣,LLM也可以應(yīng)用于文檔理解相關(guān)的工作。通過將LLM與OCR技術(shù)相結(jié)合,我們可以更好地理解文檔內(nèi)容,并從中提取有用的信息。這將進(jìn)一步促進(jìn)文檔處理技術(shù)的發(fā)展,提高自動化水平和生產(chǎn)效率。
????????SPTS?是一種創(chuàng)新的端到端文本檢測和識別方法,它顛覆了傳統(tǒng)的文本檢測和識別流程。傳統(tǒng)的方法通常將文本檢測和識別看作兩個獨立的任務(wù),導(dǎo)致處理流程復(fù)雜且冗余。而SPTS將這兩個任務(wù)融為一體,將文本檢測和識別定義為圖片到序列的預(yù)測任務(wù),極大地簡化了處理流程。另外,SPTS采用單點標(biāo)注技術(shù)指示文本位置,這樣就可以極大地降低標(biāo)注成本。同時,它無需RoI采樣和復(fù)雜的后處理操作,真正將檢測和識別融為一體。
????????SPTS?v2將檢測和識別解耦為自回歸的單點檢測和并行的文本識別兩個過程。其中,IAD根據(jù)視覺編碼器特征自回歸地得到每個文本的單點坐標(biāo),這個過程是自回歸的,因此可以極大地提高推理速度。而PRD則是根據(jù)IAD的單點特征并行地得到各個文本的識別結(jié)果,這種并行的處理方式可以進(jìn)一步提高處理效率。SPTS?v2還可以應(yīng)用于各種不同的OCR場景。
????????基于SPTS的OCR大一統(tǒng)模型(SPTS?v3)將多種OCR任務(wù)定義為序列預(yù)測的形式。通過使用不同的prompt引導(dǎo)模型完成不同的OCR任務(wù),可以極大地提高模型的泛化能力。例如,可以使用“where?is?the?date?on?this?document?”來詢問文檔中的日期位置,或者使用“what?is?the?text?on?this?image?”來識別圖像中的文本。另外,SPTS?v3沿用了SPTS的CNN?+?Transformer?Encoder?+?Transformer?Decoder的圖片到序列的結(jié)構(gòu),這使得它可以更加高效地處理各種不同的OCR任務(wù)。
一個復(fù)雜的系統(tǒng)模型應(yīng)該需要做到:
????????在輸入層,模型可以接收任何類型的文本文件作為輸入,包括Word文檔、PDF文檔等。這一層的主要任務(wù)是對原始文本數(shù)據(jù)進(jìn)行預(yù)處理,為后續(xù)的處理階段準(zhǔn)備數(shù)據(jù)。
????????處理層是模型的核心部分,它將對輸入的文本數(shù)據(jù)進(jìn)行一系列的分析和操作,如分詞、語法分析、語義分析以及拼寫檢查等。這些處理步驟能幫助模型更好地理解和處理文本數(shù)據(jù)。
????????在輸出層,模型將對處理后的結(jié)果進(jìn)行可視化展示,可以是以圖表、圖形、文字等形式。這一層的主要任務(wù)是將復(fù)雜的數(shù)據(jù)處理結(jié)果以易于理解的方式呈現(xiàn)給用戶。
????????盡管這個模型已經(jīng)實現(xiàn)了高效的數(shù)據(jù)處理,但它仍有進(jìn)一步發(fā)展和優(yōu)化的空間。例如,可以探索如何更準(zhǔn)確地識別和處理各種類型的文本數(shù)據(jù),如何改進(jìn)語法分析和語義理解的技術(shù)以提升模型的性能,以及如何設(shè)計和實現(xiàn)更有效的數(shù)據(jù)可視化方法以幫助用戶更好地理解和利用模型輸出的結(jié)果。這些方向的研究和發(fā)展將推動文本數(shù)據(jù)處理技術(shù)的進(jìn)步,對許多領(lǐng)域都將產(chǎn)生深遠(yuǎn)的影響。
????????隨著數(shù)字化時代的到來,文檔圖像處理技術(shù)變得越來越重要。文檔圖像處理通過計算機對文檔圖像進(jìn)行分析和理解,實現(xiàn)自動化的信息提取和處理。文檔圖像處理在各行各業(yè)都有廣泛應(yīng)用,如自動化辦公、金融和教育領(lǐng)域。通過自動化處理,可以提高工作效率,減少錯誤,并提供更快速、準(zhǔn)確的信息檢索和提取。
????????然而,文檔圖像處理面臨一些技術(shù)難題。首先是不同類型文檔的多樣性,不同的版式和布局給分析和理解帶來挑戰(zhàn)。其次是形狀的不可控性,文檔可能是曲線、折疊或損壞的,導(dǎo)致識別和還原困難。此外,采集設(shè)備的不確定性和用戶需求的多樣性也增加了處理復(fù)雜度。最后,光照的不可控性也會對圖像質(zhì)量產(chǎn)生重要影響。
????????LayoutLM系列、UDOP、LiLT和Donut等專有模型在文檔圖像處理方面取得了顯著的性能。此外,多模態(tài)大模型如BLIP2、Flamingo和LLaVA也在文檔圖像處理中取得了重要進(jìn)展。
????????多模態(tài)大模型在處理細(xì)粒度文本方面仍存在局限性。視覺編碼器的分辨率和訓(xùn)練數(shù)據(jù)的限制會影響其性能。此外,這些模型在處理細(xì)節(jié)文本時可能忽略了內(nèi)部信息,表現(xiàn)不佳。
????????為了進(jìn)一步發(fā)展文檔圖像處理技術(shù),可以探索以下方向:優(yōu)化文本預(yù)處理、改進(jìn)分析和操作方法、提升語法分析和語義理解技術(shù)、設(shè)計更有效的數(shù)據(jù)可視化方法等。這些研究將推動文檔圖像處理技術(shù)的進(jìn)步,并在各個領(lǐng)域產(chǎn)生深遠(yuǎn)影響。
我是虛竹哥,我們下文見~
聯(lián)系客服