九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
2023 第十二屆中國智能產(chǎn)業(yè)高峰論壇 - 文檔大模型的未來展望

目錄

前言

在2023年的第十二屆中國智能產(chǎn)業(yè)高峰論壇上,合合信息副總經(jīng)理和高級工程師丁凱博士為我們帶來了一場精彩的演講,分享了關(guān)于文檔大模型的最新研究成果以及對未來的展望。

合合信息是一家領(lǐng)先的人工智能和大數(shù)據(jù)科技企業(yè),以其創(chuàng)新的智能文字識別和商業(yè)大數(shù)據(jù)解決方案而聞名。本文將介紹丁凱博士在大會上的演講內(nèi)容,涵蓋了文檔圖像分析、識別、以及大模型在這一領(lǐng)域的應(yīng)用和挑戰(zhàn)。

讓我們一起深入了解,探索文檔大模型的未來前景,以及合合信息在推動智能產(chǎn)業(yè)發(fā)展方面的獨(dú)特貢獻(xiàn)。

文檔圖像分析識別與理解中的技術(shù)挑戰(zhàn)

  • 場景及樣式多樣性:文檔的多樣化形狀和光照條件增加了圖像分析的復(fù)雜性,因?yàn)槊總€文檔可能都有不同的特點(diǎn)。
  • 采集設(shè)備不確定性:文檔可以從多種設(shè)備上采集,包括攝像頭、掃描儀、工業(yè)機(jī)器人和智能機(jī)器人。這需要適應(yīng)不同輸入源的算法和處理。
  • 用戶需求多樣性:不同用戶對文檔圖像識別的需求不同。例如,在金融領(lǐng)域,需要高精度的票據(jù)識別,而在教育、檔案管理和辦公領(lǐng)域,需要更注重可理解性和結(jié)構(gòu)化的文檔處理。
  • 文檔圖像質(zhì)量退化:文檔圖像可能會因多種原因而質(zhì)量下降,包括噪音、模糊和失真。處理這些問題需要強(qiáng)大的圖像預(yù)處理技術(shù)。
  • 文字檢測及版面分析:檢測文檔中的文字和分析版面結(jié)構(gòu)是復(fù)雜的任務(wù),涉及到視覺對象檢測和解析。
  • 非限定條件文字識別:在非受限條件下,例如手寫文本或不規(guī)則排版的文檔,文字識別的準(zhǔn)確率較低。這需要更加靈活的模型和算法。
  • 結(jié)構(gòu)化智能理解:理解文檔中的結(jié)構(gòu)和內(nèi)容需要高度智能化的處理,包括語義理解和信息抽取。

文檔圖像分析識別與理解的研究主題

為了解決上述技術(shù)難題,研究人員在文檔圖像分析識別與理解領(lǐng)域開展了廣泛的研究,主要包括以下主題:

文檔圖像分析與預(yù)處理

  • 切邊增強(qiáng)
  • 去摩爾紋
  • 彎曲矯正
  • 圖片壓縮
  • PS檢測

文檔解析與識別

  • 文字識別
  • 表格識別
  • 電子檔解析

版面分析與還原

  • 元素檢測
  • 元素識別
  • 版面還原

文檔信息抽取與理解

  • 信息抽取
  • Question-answer

AI安全

  • 篡改分類
  • 篡改檢測
  • 合成檢測
  • AI生成檢測

知識化&存儲檢索和管理

  • 實(shí)體關(guān)系
  • 文檔主題
  • ERP/OA
  • SAP

多模態(tài)大模型在文檔圖像處理中的應(yīng)用

  • GPT-4:多模態(tài)大模型如GPT-4已經(jīng)取得了顯著的進(jìn)展,可以同時處理文本和圖像數(shù)據(jù),從而提高了文檔圖像識別與理解的性能。這使得處理多種類型的信息更加容易,包括文字、圖像和其它媒體。
  • Google Bard:Google Bard是另一個多模態(tài)大模型,同樣在文檔圖像領(lǐng)域表現(xiàn)出色。這種競爭推動了領(lǐng)域內(nèi)的技術(shù)進(jìn)步,有望帶來更多創(chuàng)新。
  • 文檔圖像大模型:文檔圖像處理領(lǐng)域出現(xiàn)了一系列專有大模型,如LayoutLM系列、LiLT INTSIG、UDOP和Donut。這些模型使用了多模態(tài)Transformer編碼器,可以應(yīng)用于不同的文檔圖像處理任務(wù),包括文本、表格、版面結(jié)構(gòu)和多語言支持。
  • 多模態(tài)大模型的局限性:盡管多模態(tài)大模型在處理文本和圖像方面表現(xiàn)出色,但它們?nèi)匀淮嬖谝恍┚窒扌?#xff0c;特別是對于細(xì)粒度文本的處理表現(xiàn)較差。這為未來的研究提供了挑戰(zhàn)和機(jī)會,以進(jìn)一步提高這些模型的性能。

多模態(tài)的GPT-4在文檔圖像上的表現(xiàn)

多模態(tài)大型語言模型如GPT-4在文檔圖像分析方面取得了顯著的進(jìn)展,它們可以同時處理文本和圖像數(shù)據(jù),提高了文檔圖像識別與理解的性能。

多模態(tài)的Google Bard在文檔圖像上的表現(xiàn)

Google Bard是另一個多模態(tài)大型語言模型,在文檔圖像領(lǐng)域表現(xiàn)出色。

文檔圖像大模型的進(jìn)展

文檔圖像專有大模型
LayoutLM系列

LayoutLM系列是一組在文檔圖像處理領(lǐng)域取得了巨大成功的模型,它們的設(shè)計思路和技術(shù)應(yīng)用值得深入探討。以下是對LayoutLM系列的更詳細(xì)介紹:

1.多模態(tài)Transformer Encoder的基礎(chǔ):LayoutLM系列的模型都基于多模態(tài)Transformer Encoder。這個核心組件結(jié)合了Transformer架構(gòu)和多模態(tài)處理的能力,使得模型能夠同時處理文本和圖像數(shù)據(jù)。Transformer架構(gòu)在自然語言處理領(lǐng)域取得了卓越的成功,而將其擴(kuò)展到文檔圖像處理,為文本和圖像之間的關(guān)系建模提供了有力工具。
2.預(yù)訓(xùn)練和下游任務(wù)微調(diào):LayoutLM系列的模型采用了預(yù)訓(xùn)練和下游任務(wù)微調(diào)的訓(xùn)練策略。在預(yù)訓(xùn)練階段,模型通過大規(guī)模文檔圖像數(shù)據(jù)進(jìn)行訓(xùn)練,學(xué)習(xí)了文本和圖像的表示以及它們之間的聯(lián)系。這種預(yù)訓(xùn)練的方式使得模型具備了通用的文檔圖像理解能力。隨后,在下游任務(wù)微調(diào)階段,模型通過在特定任務(wù)上的訓(xùn)練進(jìn)一步提高了性能,例如,文本識別、表格檢測、版面分析等。
3.多模態(tài)任務(wù)的應(yīng)用:LayoutLM系列模型在多模態(tài)任務(wù)上表現(xiàn)出色。它們不僅僅可以識別文本內(nèi)容,還能夠理解文檔中的圖像信息。這種多模態(tài)處理能力使得模型在處理包含文本、圖表、圖片等多種媒體元素的文檔時更具優(yōu)勢,例如,處理年報、研究報告或金融文檔。
4.不同版本的演進(jìn):LayoutLM系列包括多個版本,如LayoutLM、LayoutLMv2、LayoutLMv3和LayoutXLM。這些版本在核心架構(gòu)上有所演進(jìn),以適應(yīng)不同的應(yīng)用場景和任務(wù)要求。例如,LayoutLMv3可能在某些方面具備更高的性能和效率,而LayoutXLM可能在多語言支持方面更具優(yōu)勢。這使得LayoutLM系列模型在各種需求下都能夠發(fā)揮作用。

LiLT

1.視覺與語言模型的解耦聯(lián)合建模:LiLT 采用了一種創(chuàng)新性的方法,將視覺和語言模型分開建模,并通過聯(lián)合建模的方式將它們整合在一起。這種解耦的設(shè)計使模型能夠更好地處理文檔圖像中的文本和視覺信息,從而提高了識別和理解的準(zhǔn)確性。
2.雙向互補(bǔ)注意力模塊(BiCAM) :為了更好地融合視覺和語言模型,LiLT 引入了雙向互補(bǔ)注意力模塊(BiCAM)。這一模塊的作用是使模型能夠在視覺和語言之間進(jìn)行雙向的信息傳遞和交互,從而更好地捕捉文檔圖像中不同元素之間的關(guān)聯(lián)性。
3.多語言小樣本/零樣本性能卓越:LiLT 在多語言小樣本和零樣本場景下表現(xiàn)出卓越的性能。這意味著即使在數(shù)據(jù)有限的情況下,該模型仍能夠有效地執(zhí)行文檔圖像信息抽取任務(wù),展現(xiàn)了其在應(yīng)對多語言和數(shù)據(jù)不足情況下的魯棒性。

UDOP

UDOP,作為文檔圖像處理領(lǐng)域的一項(xiàng)重要創(chuàng)新,代表了文檔處理大一統(tǒng)模型的新興趨勢。這一模型的設(shè)計目的是將文檔處理過程變得更加高效、一體化,以應(yīng)對不同領(lǐng)域和應(yīng)用中的多樣性需求。以下是UDOP的主要特點(diǎn):

1.文檔處理大一統(tǒng)模型:UDOP被稱為文檔處理的"大一統(tǒng)模型",這意味著它旨在成為一個通用工具,能夠應(yīng)對多種文檔圖像處理任務(wù),包括文本識別、版面分析、圖像處理等。這一統(tǒng)一的模型設(shè)計簡化了文檔處理工作流程,使其更加高效和靈活。
2.統(tǒng)一的Vision-Text-Layout編碼器:UDOP采用了一個統(tǒng)一的編碼器,將視覺信息、文本內(nèi)容和版面結(jié)構(gòu)信息融合在一起。這一編碼器能夠同時處理不同類型的輸入,包括文本圖像、表格、圖片等,從而實(shí)現(xiàn)了對多模態(tài)信息的綜合處理。
3.分離的Text-Layout和Vision解碼器:為了更好地理解和處理文檔圖像,UDOP采用了分離的解碼器,分別處理文本、版面和視覺信息。這種分離的架構(gòu)使得模型能夠更好地捕捉不同元素之間的關(guān)聯(lián)性,提高了文檔處理的精度和效率。
4.多任務(wù)支持:UDOP被設(shè)計成支持多種任務(wù),包括文本識別、表格檢測、版面還原等。這使得它可以適應(yīng)不同領(lǐng)域和行業(yè)的需求,從金融領(lǐng)域的票據(jù)處理到醫(yī)療領(lǐng)域的病歷管理,都能夠發(fā)揮出其強(qiáng)大的潛力。
5.應(yīng)對多語言需求:UDOP還具備處理多語言文檔的能力,這對于國際化企業(yè)和跨國合作非常重要。它能夠自如地處理不同語言的文檔,為全球范圍內(nèi)的用戶提供了便利。

Donut

Donut,作為一種用于文檔理解的Transformer模型,標(biāo)志著文檔圖像處理領(lǐng)域的一次革命性突破。這一模型的設(shè)計和應(yīng)用方式為文檔理解帶來了全新的可能性,以下是對Donut的更詳細(xì)介紹:

1.無需OCR的文檔理解:Donut的最顯著特點(diǎn)之一是,它不需要傳統(tǒng)的OCR(光學(xué)字符識別)步驟來處理文檔圖像。傳統(tǒng)OCR方法可能受到圖像質(zhì)量、字體和版式的限制,而Donut則通過Transformer模型直接理解文檔的內(nèi)容和結(jié)構(gòu),無需將圖像中的文字轉(zhuǎn)化為文本。這使得文檔理解變得更加高效和準(zhǔn)確。
2.Transformer模型的應(yīng)用:Donut采用了Transformer模型作為其核心架構(gòu)。Transformer模型已在自然語言處理領(lǐng)域取得了巨大成功,但在文檔理解中的應(yīng)用是一個新領(lǐng)域。這一模型通過自注意力機(jī)制和多頭注意力機(jī)制等先進(jìn)技術(shù),能夠捕捉文檔中不同元素之間的關(guān)聯(lián)性,包括文本、圖像和版面結(jié)構(gòu)。
3.多模態(tài)處理:Donut不僅僅處理文本內(nèi)容,還能夠理解文檔中的圖像信息。這種多模態(tài)處理能力使得它在處理包含多種媒體元素的文檔時表現(xiàn)出色,例如,處理包含文本、圖表和圖片的報告或文檔。
4.文檔結(jié)構(gòu)理解:Donut不僅僅關(guān)注文本內(nèi)容,還能夠理解文檔的結(jié)構(gòu)。這包括識別標(biāo)題、段落、列表、表格等不同類型的文檔元素,并理解它們之間的層次關(guān)系。這種文檔結(jié)構(gòu)理解有助于更深入地挖掘文檔的信息。
5.應(yīng)用領(lǐng)域:Donut的應(yīng)用領(lǐng)域廣泛,可以用于自動化文檔處理、信息提取、知識管理等各種任務(wù)。它能夠從文檔中提取關(guān)鍵信息、識別主題、分析趨勢,為企業(yè)和研究機(jī)構(gòu)提供有力的決策支持。
6.未來潛力:Donut代表了文檔圖像處理領(lǐng)域的未來趨勢,它的無需OCR和多模態(tài)處理能力為文檔理解帶來了新的思路。未來,我們可以期待看到更多基于Donut模型的創(chuàng)新應(yīng)用,將文檔處理推向新的高度。

多模態(tài)大模型
BLIP2

BLIP2(Bidirectional Language-Image Pretraining 2)采用了一種創(chuàng)新的方法,將圖像編碼和語言解碼結(jié)合起來,實(shí)現(xiàn)了多模態(tài)數(shù)據(jù)的高效預(yù)訓(xùn)練和表示學(xué)習(xí)。以下是對BLIP2的更詳細(xì)介紹:

1.Q-Former連接預(yù)訓(xùn)練:BLIP2采用了Q-Former來連接預(yù)訓(xùn)練的圖像編碼器(如ViT,Vision Transformer)和LLM(Language-Layout-Model)解碼器(如OPT和FlanT5等)。這個Q-Former扮演著關(guān)鍵角色,它允許模型同時處理來自圖像和文本的信息。這種連接的方式是創(chuàng)新性的,因?yàn)樗浞掷昧薚ransformer架構(gòu)的優(yōu)勢,將視覺和語言信息進(jìn)行有效整合。
2.僅需訓(xùn)練Q-Former部分:一個顯著的特點(diǎn)是,BLIP2僅需要對Q-Former部分進(jìn)行訓(xùn)練。這是因?yàn)镼-Former承擔(dān)了整個模型的核心任務(wù),它負(fù)責(zé)將來自圖像和文本的信息融合在一起,生成豐富的多模態(tài)表示。這種策略不僅降低了訓(xùn)練的計算成本,還提高了模型的訓(xùn)練效率。
3. 多模態(tài)表示學(xué)習(xí):BLIP2的核心目標(biāo)是學(xué)習(xí)多模態(tài)表示,這意味著模型能夠同時理解圖像和文本,并在二者之間建立有意義的關(guān)聯(lián)。這對于諸如圖像標(biāo)注、文本到圖像生成、文檔圖像理解等多模態(tài)任務(wù)非常重要。通過預(yù)訓(xùn)練的方式,BLIP2可以在大規(guī)模多模態(tài)數(shù)據(jù)上學(xué)習(xí)通用的表示,為各種任務(wù)提供了強(qiáng)大的基礎(chǔ)。

Flamingo

Flamingo是一種備受矚目的模型,因其在多模態(tài)信息處理方面引入了創(chuàng)新性的設(shè)計而備受關(guān)注。下面是對Flamingo的更詳細(xì)介紹:

1.引入Gated Attention層:Flamingo的一個顯著特點(diǎn)是在LLM(Language-Layout-Model)中引入了Gated Attention層。這一層的作用是引入視覺信息,并將其融合到文本處理過程中。通過Gated Attention,模型可以有選擇性地關(guān)注文本和圖像信息,以便更好地理解多模態(tài)數(shù)據(jù)。
2.多模態(tài)數(shù)據(jù)理解:Flamingo的設(shè)計目標(biāo)之一是使模型能夠有效地理解文本和圖像之間的關(guān)系。通過Gated Attention,模型可以根據(jù)任務(wù)的需要調(diào)整關(guān)注的重點(diǎn)。例如,在圖像標(biāo)注任務(wù)中,模型可以根據(jù)圖像內(nèi)容來調(diào)整生成文本描述的注意力,從而生成更準(zhǔn)確的標(biāo)注。
3.增強(qiáng)了任務(wù)性能:引入Gated Attention層后,Flamingo在多模態(tài)任務(wù)上表現(xiàn)出色。它不僅能夠更好地處理圖像和文本的關(guān)聯(lián),還可以在各種任務(wù)中提高性能,包括圖像標(biāo)注、視覺問答、文檔圖像理解等。這使得Flamingo成為處理多模態(tài)數(shù)據(jù)的有力工具。

LLaVA
  • 將CLIP ViT-L 和 LLaMA 采用全連接層連接
  • 使用 GPT-4 和 Self-Instruct 生成高質(zhì)量的158k instruction following 數(shù)據(jù)
MiniGPT-4
  • 視覺部分采用 ViT+Q-Former
  • 語言模型部分采用 Vicuna
  • 視覺和語言模塊間采用全連接層銜接
多模態(tài)大模型用于OCR領(lǐng)域的局限性

盡管多模態(tài)大模型在處理顯著文本方面表現(xiàn)出色,但它們?nèi)匀淮嬖谝恍┚窒扌?。這些模型受到視覺編碼器的分辨率和訓(xùn)練數(shù)據(jù)的限制,對于細(xì)粒度文本的處理表現(xiàn)較差。

文檔圖像是更偏向于文字還是更偏向于圖像?

在文檔圖像分析中,存在一個關(guān)鍵問題:文檔圖像是更偏向于文字還是更偏向于圖像?這涉及到對文檔圖像中各種元素的識別和理解。

Pixel2seq大模型系列

Pix2Seq

將目標(biāo)檢測任務(wù)當(dāng)做一個圖像到序列的語言建模任務(wù)來解決。

UniTAB

多模態(tài)編碼器(圖像&文本)+自回歸解碼器完成多種 Vision-Language(VL)任務(wù)。

NOUGAT

通過Swin Transformer 和Transformer Decoder 實(shí)現(xiàn)文檔圖像到文檔序列輸出。

文檔圖像大模型探索

文檔圖像大模型設(shè)計思路

文檔圖像大模型的設(shè)計思路包括了幾個關(guān)鍵要點(diǎn),這些要點(diǎn)在推動文檔圖像識別和理解方面發(fā)揮了重要作用:

  • 將文檔圖像識別和分析的任務(wù)定義為序列預(yù)測的形式,這包括了對文本、段落、版面分析、表格、公式等元素的預(yù)測。
  • 通過不同的提示(prompt)引導(dǎo)模型執(zhí)行不同的OCR(Optical Character Recognition)任務(wù),從而提高了模型的多功能性和適用性。
  • 支持篇章級的文檔圖像識別與分析,能夠輸出標(biāo)準(zhǔn)格式的Markdown、HTML或純文本等文檔類型,使模型在處理復(fù)雜文檔時表現(xiàn)出色。
  • 將文檔理解相關(guān)的任務(wù)委托給了LLM(Language-Layout-Model),這一策略有助于提高模型在處理結(jié)構(gòu)化文檔時的效率和準(zhǔn)確性。

SPTS文檔圖像大模型

SPTS (Sequence-to-Sequence Prediction for Text Spotting) :SPTS 是一種重要的文檔圖像處理模型,將端到端的文本檢測和識別任務(wù)定義為圖片到序列的預(yù)測任務(wù)。這個模型通過單點(diǎn)標(biāo)注來指示文本的位置,從而降低了標(biāo)注成本,并且無需復(fù)雜的后處理步驟。這一方法為文檔圖像處理提供了更高效的解決方案,可以應(yīng)用于場景文本端到端檢測識別、表格結(jié)構(gòu)識別和手寫數(shù)學(xué)公式識別等任務(wù)。

SPTS
  • 將端到端檢測識別定義為圖片到序列的預(yù)測任務(wù)
  • 采用單點(diǎn)標(biāo)注指示文本位置,極大地降低了標(biāo)注成本
  • 無需Rol采樣和復(fù)雜的后處理操作,真正將檢測識別融為一體

基于SPTS的OCR大一統(tǒng)模型(SPTS v3)
  • 將多種OCR任務(wù)定義為序列預(yù)測的形式
  • 通過不同的prompt引導(dǎo)模型完成不同的OCR任務(wù)
  • 模型沿用SPTS的CNN+Transformer Encoder+Transformer Decoder的圖片到序列的結(jié)構(gòu)

SPTSv3的任務(wù)定義
  • SPTSv3 將多種OCR任務(wù)定義為序列預(yù)測的形式,包括端到端檢測識別、表格結(jié)構(gòu)識別和手寫數(shù)學(xué)公式識別。這一模型通過不同的提示(prompt)來引導(dǎo)模型完成不同的OCR任務(wù),使其更加靈活和多用途。

實(shí)驗(yàn)結(jié)果表明,SPTSv3 在各個OCR任務(wù)上都取得了出色的性能,顯示了其在文檔圖像處理中的潛力。這為文檔圖像的多任務(wù)處理提供了一種高效的解決方案,有望應(yīng)用于廣泛的應(yīng)用領(lǐng)域,包括自動化文檔處理、文檔搜索和內(nèi)容提取等。

訓(xùn)練平臺:A100GPUx10

場景文本端到端檢測識別

表格結(jié)構(gòu)識別

手寫數(shù)學(xué)公式識別

實(shí)驗(yàn)結(jié)果

總結(jié)

在本次2023年第十二屆中國智能產(chǎn)業(yè)高峰論壇上,丁凱博士的演講引領(lǐng)我們深入文檔大模型的前沿研究。他分享了關(guān)于文檔大模型的最新研究成果,介紹了合合信息科技公司以及文檔圖像分析識別與理解領(lǐng)域的挑戰(zhàn)。演講還提到了當(dāng)前的技術(shù)難題和未來的研究方向,旨在實(shí)現(xiàn)更靈活的文檔圖像處理。為文檔圖像處理的未來帶來了更多的可能性。這次精彩的演講讓我們對智能產(chǎn)業(yè)的發(fā)展充滿了信心,期待著更多創(chuàng)新和突破。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
文檔圖像處理:大模型的突破與新探索
【CCIG技術(shù)論壇回顧】展望AI時代,把握文檔圖像智能分析與處理的未來
文檔處理容易“翻車”,來看看CCIG上的大咖怎么說
模式識別學(xué)科發(fā)展報告(3)丨模式識別應(yīng)用技術(shù)重要研究進(jìn)展
美國微軟公司發(fā)布兩種多模態(tài)人工智能大模型
AI:大力出奇跡?Bigger is better?AI下一代浪潮?—人工智能的大語言模型(LLMs)的簡介、發(fā)展以及未來趨勢
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服