成人午夜直播,福利视频99

前言

在2023年的第十二屆中國智能產(chǎn)業(yè)高峰論壇上，合合信息副總經(jīng)理和高級工程師丁凱博士為我們帶來了一場精彩的演講，分享了關(guān)于文檔大模型的最新研究成果以及對未來的展望。

合合信息是一家領(lǐng)先的人工智能和大數(shù)據(jù)科技企業(yè)，以其創(chuàng)新的智能文字識別和商業(yè)大數(shù)據(jù)解決方案而聞名。本文將介紹丁凱博士在大會上的演講內(nèi)容，涵蓋了文檔圖像分析、識別、以及大模型在這一領(lǐng)域的應(yīng)用和挑戰(zhàn)。

讓我們一起深入了解，探索文檔大模型的未來前景，以及合合信息在推動智能產(chǎn)業(yè)發(fā)展方面的獨(dú)特貢獻(xiàn)。

文檔圖像分析識別與理解中的技術(shù)挑戰(zhàn)

場景及樣式多樣性：文檔的多樣化形狀和光照條件增加了圖像分析的復(fù)雜性，因?yàn)槊總€文檔可能都有不同的特點(diǎn)。
采集設(shè)備不確定性：文檔可以從多種設(shè)備上采集，包括攝像頭、掃描儀、工業(yè)機(jī)器人和智能機(jī)器人。這需要適應(yīng)不同輸入源的算法和處理。
用戶需求多樣性：不同用戶對文檔圖像識別的需求不同。例如，在金融領(lǐng)域，需要高精度的票據(jù)識別，而在教育、檔案管理和辦公領(lǐng)域，需要更注重可理解性和結(jié)構(gòu)化的文檔處理。
文檔圖像質(zhì)量退化：文檔圖像可能會因多種原因而質(zhì)量下降，包括噪音、模糊和失真。處理這些問題需要強(qiáng)大的圖像預(yù)處理技術(shù)。
文字檢測及版面分析：檢測文檔中的文字和分析版面結(jié)構(gòu)是復(fù)雜的任務(wù)，涉及到視覺對象檢測和解析。
非限定條件文字識別：在非受限條件下，例如手寫文本或不規(guī)則排版的文檔，文字識別的準(zhǔn)確率較低。這需要更加靈活的模型和算法。
結(jié)構(gòu)化智能理解：理解文檔中的結(jié)構(gòu)和內(nèi)容需要高度智能化的處理，包括語義理解和信息抽取。

文檔圖像分析識別與理解的研究主題

為了解決上述技術(shù)難題，研究人員在文檔圖像分析識別與理解領(lǐng)域開展了廣泛的研究，主要包括以下主題：

文檔圖像分析與預(yù)處理

切邊增強(qiáng)
去摩爾紋
彎曲矯正
圖片壓縮
PS檢測
…

文檔解析與識別

文字識別
表格識別
電子檔解析
…

版面分析與還原

元素檢測
元素識別
版面還原

文檔信息抽取與理解

信息抽取
Question-answer

AI安全

篡改分類
篡改檢測
合成檢測
AI生成檢測

知識化&存儲檢索和管理

實(shí)體關(guān)系
文檔主題
ERP/OA
SAP

多模態(tài)大模型在文檔圖像處理中的應(yīng)用

GPT-4：多模態(tài)大模型如GPT-4已經(jīng)取得了顯著的進(jìn)展，可以同時處理文本和圖像數(shù)據(jù)，從而提高了文檔圖像識別與理解的性能。這使得處理多種類型的信息更加容易，包括文字、圖像和其它媒體。
Google Bard：Google Bard是另一個多模態(tài)大模型，同樣在文檔圖像領(lǐng)域表現(xiàn)出色。這種競爭推動了領(lǐng)域內(nèi)的技術(shù)進(jìn)步，有望帶來更多創(chuàng)新。
文檔圖像大模型：文檔圖像處理領(lǐng)域出現(xiàn)了一系列專有大模型，如LayoutLM系列、LiLT INTSIG、UDOP和Donut。這些模型使用了多模態(tài)Transformer編碼器，可以應(yīng)用于不同的文檔圖像處理任務(wù)，包括文本、表格、版面結(jié)構(gòu)和多語言支持。
多模態(tài)大模型的局限性：盡管多模態(tài)大模型在處理文本和圖像方面表現(xiàn)出色，但它們?nèi)匀淮嬖谝恍┚窒扌?#xff0c;特別是對于細(xì)粒度文本的處理表現(xiàn)較差。這為未來的研究提供了挑戰(zhàn)和機(jī)會，以進(jìn)一步提高這些模型的性能。

多模態(tài)的GPT-4在文檔圖像上的表現(xiàn)

多模態(tài)大型語言模型如GPT-4在文檔圖像分析方面取得了顯著的進(jìn)展，它們可以同時處理文本和圖像數(shù)據(jù)，提高了文檔圖像識別與理解的性能。

多模態(tài)的Google Bard在文檔圖像上的表現(xiàn)

Google Bard是另一個多模態(tài)大型語言模型，在文檔圖像領(lǐng)域表現(xiàn)出色。

文檔圖像大模型的進(jìn)展

文檔圖像專有大模型

LayoutLM系列

LayoutLM系列是一組在文檔圖像處理領(lǐng)域取得了巨大成功的模型，它們的設(shè)計思路和技術(shù)應(yīng)用值得深入探討。以下是對LayoutLM系列的更詳細(xì)介紹：

1.多模態(tài)Transformer Encoder的基礎(chǔ)：LayoutLM系列的模型都基于多模態(tài)Transformer Encoder。這個核心組件結(jié)合了Transformer架構(gòu)和多模態(tài)處理的能力，使得模型能夠同時處理文本和圖像數(shù)據(jù)。Transformer架構(gòu)在自然語言處理領(lǐng)域取得了卓越的成功，而將其擴(kuò)展到文檔圖像處理，為文本和圖像之間的關(guān)系建模提供了有力工具。
2.預(yù)訓(xùn)練和下游任務(wù)微調(diào)：LayoutLM系列的模型采用了預(yù)訓(xùn)練和下游任務(wù)微調(diào)的訓(xùn)練策略。在預(yù)訓(xùn)練階段，模型通過大規(guī)模文檔圖像數(shù)據(jù)進(jìn)行訓(xùn)練，學(xué)習(xí)了文本和圖像的表示以及它們之間的聯(lián)系。這種預(yù)訓(xùn)練的方式使得模型具備了通用的文檔圖像理解能力。隨后，在下游任務(wù)微調(diào)階段，模型通過在特定任務(wù)上的訓(xùn)練進(jìn)一步提高了性能，例如，文本識別、表格檢測、版面分析等。
3.多模態(tài)任務(wù)的應(yīng)用：LayoutLM系列模型在多模態(tài)任務(wù)上表現(xiàn)出色。它們不僅僅可以識別文本內(nèi)容，還能夠理解文檔中的圖像信息。這種多模態(tài)處理能力使得模型在處理包含文本、圖表、圖片等多種媒體元素的文檔時更具優(yōu)勢，例如，處理年報、研究報告或金融文檔。
4.不同版本的演進(jìn)：LayoutLM系列包括多個版本，如LayoutLM、LayoutLMv2、LayoutLMv3和LayoutXLM。這些版本在核心架構(gòu)上有所演進(jìn)，以適應(yīng)不同的應(yīng)用場景和任務(wù)要求。例如，LayoutLMv3可能在某些方面具備更高的性能和效率，而LayoutXLM可能在多語言支持方面更具優(yōu)勢。這使得LayoutLM系列模型在各種需求下都能夠發(fā)揮作用。

LiLT

1.視覺與語言模型的解耦聯(lián)合建模：LiLT 采用了一種創(chuàng)新性的方法，將視覺和語言模型分開建模，并通過聯(lián)合建模的方式將它們整合在一起。這種解耦的設(shè)計使模型能夠更好地處理文檔圖像中的文本和視覺信息，從而提高了識別和理解的準(zhǔn)確性。
2.雙向互補(bǔ)注意力模塊(BiCAM) ：為了更好地融合視覺和語言模型，LiLT 引入了雙向互補(bǔ)注意力模塊(BiCAM)。這一模塊的作用是使模型能夠在視覺和語言之間進(jìn)行雙向的信息傳遞和交互，從而更好地捕捉文檔圖像中不同元素之間的關(guān)聯(lián)性。
3.多語言小樣本/零樣本性能卓越：LiLT 在多語言小樣本和零樣本場景下表現(xiàn)出卓越的性能。這意味著即使在數(shù)據(jù)有限的情況下，該模型仍能夠有效地執(zhí)行文檔圖像信息抽取任務(wù)，展現(xiàn)了其在應(yīng)對多語言和數(shù)據(jù)不足情況下的魯棒性。

UDOP

UDOP，作為文檔圖像處理領(lǐng)域的一項(xiàng)重要創(chuàng)新，代表了文檔處理大一統(tǒng)模型的新興趨勢。這一模型的設(shè)計目的是將文檔處理過程變得更加高效、一體化，以應(yīng)對不同領(lǐng)域和應(yīng)用中的多樣性需求。以下是UDOP的主要特點(diǎn)：

1.文檔處理大一統(tǒng)模型：UDOP被稱為文檔處理的"大一統(tǒng)模型"，這意味著它旨在成為一個通用工具，能夠應(yīng)對多種文檔圖像處理任務(wù)，包括文本識別、版面分析、圖像處理等。這一統(tǒng)一的模型設(shè)計簡化了文檔處理工作流程，使其更加高效和靈活。
2.統(tǒng)一的Vision-Text-Layout編碼器：UDOP采用了一個統(tǒng)一的編碼器，將視覺信息、文本內(nèi)容和版面結(jié)構(gòu)信息融合在一起。這一編碼器能夠同時處理不同類型的輸入，包括文本圖像、表格、圖片等，從而實(shí)現(xiàn)了對多模態(tài)信息的綜合處理。
3.分離的Text-Layout和Vision解碼器：為了更好地理解和處理文檔圖像，UDOP采用了分離的解碼器，分別處理文本、版面和視覺信息。這種分離的架構(gòu)使得模型能夠更好地捕捉不同元素之間的關(guān)聯(lián)性，提高了文檔處理的精度和效率。
4.多任務(wù)支持：UDOP被設(shè)計成支持多種任務(wù)，包括文本識別、表格檢測、版面還原等。這使得它可以適應(yīng)不同領(lǐng)域和行業(yè)的需求，從金融領(lǐng)域的票據(jù)處理到醫(yī)療領(lǐng)域的病歷管理，都能夠發(fā)揮出其強(qiáng)大的潛力。
5.應(yīng)對多語言需求：UDOP還具備處理多語言文檔的能力，這對于國際化企業(yè)和跨國合作非常重要。它能夠自如地處理不同語言的文檔，為全球范圍內(nèi)的用戶提供了便利。

Donut

Donut，作為一種用于文檔理解的Transformer模型，標(biāo)志著文檔圖像處理領(lǐng)域的一次革命性突破。這一模型的設(shè)計和應(yīng)用方式為文檔理解帶來了全新的可能性，以下是對Donut的更詳細(xì)介紹：

1.無需OCR的文檔理解：Donut的最顯著特點(diǎn)之一是，它不需要傳統(tǒng)的OCR（光學(xué)字符識別）步驟來處理文檔圖像。傳統(tǒng)OCR方法可能受到圖像質(zhì)量、字體和版式的限制，而Donut則通過Transformer模型直接理解文檔的內(nèi)容和結(jié)構(gòu)，無需將圖像中的文字轉(zhuǎn)化為文本。這使得文檔理解變得更加高效和準(zhǔn)確。
2.Transformer模型的應(yīng)用：Donut采用了Transformer模型作為其核心架構(gòu)。Transformer模型已在自然語言處理領(lǐng)域取得了巨大成功，但在文檔理解中的應(yīng)用是一個新領(lǐng)域。這一模型通過自注意力機(jī)制和多頭注意力機(jī)制等先進(jìn)技術(shù)，能夠捕捉文檔中不同元素之間的關(guān)聯(lián)性，包括文本、圖像和版面結(jié)構(gòu)。
3.多模態(tài)處理：Donut不僅僅處理文本內(nèi)容，還能夠理解文檔中的圖像信息。這種多模態(tài)處理能力使得它在處理包含多種媒體元素的文檔時表現(xiàn)出色，例如，處理包含文本、圖表和圖片的報告或文檔。
4.文檔結(jié)構(gòu)理解：Donut不僅僅關(guān)注文本內(nèi)容，還能夠理解文檔的結(jié)構(gòu)。這包括識別標(biāo)題、段落、列表、表格等不同類型的文檔元素，并理解它們之間的層次關(guān)系。這種文檔結(jié)構(gòu)理解有助于更深入地挖掘文檔的信息。
5.應(yīng)用領(lǐng)域：Donut的應(yīng)用領(lǐng)域廣泛，可以用于自動化文檔處理、信息提取、知識管理等各種任務(wù)。它能夠從文檔中提取關(guān)鍵信息、識別主題、分析趨勢，為企業(yè)和研究機(jī)構(gòu)提供有力的決策支持。
6.未來潛力：Donut代表了文檔圖像處理領(lǐng)域的未來趨勢，它的無需OCR和多模態(tài)處理能力為文檔理解帶來了新的思路。未來，我們可以期待看到更多基于Donut模型的創(chuàng)新應(yīng)用，將文檔處理推向新的高度。

多模態(tài)大模型

BLIP2

BLIP2（Bidirectional Language-Image Pretraining 2）采用了一種創(chuàng)新的方法，將圖像編碼和語言解碼結(jié)合起來，實(shí)現(xiàn)了多模態(tài)數(shù)據(jù)的高效預(yù)訓(xùn)練和表示學(xué)習(xí)。以下是對BLIP2的更詳細(xì)介紹：

1.Q-Former連接預(yù)訓(xùn)練：BLIP2采用了Q-Former來連接預(yù)訓(xùn)練的圖像編碼器（如ViT，Vision Transformer）和LLM（Language-Layout-Model）解碼器（如OPT和FlanT5等）。這個Q-Former扮演著關(guān)鍵角色，它允許模型同時處理來自圖像和文本的信息。這種連接的方式是創(chuàng)新性的，因?yàn)樗浞掷昧薚ransformer架構(gòu)的優(yōu)勢，將視覺和語言信息進(jìn)行有效整合。
2.僅需訓(xùn)練Q-Former部分：一個顯著的特點(diǎn)是，BLIP2僅需要對Q-Former部分進(jìn)行訓(xùn)練。這是因?yàn)镼-Former承擔(dān)了整個模型的核心任務(wù)，它負(fù)責(zé)將來自圖像和文本的信息融合在一起，生成豐富的多模態(tài)表示。這種策略不僅降低了訓(xùn)練的計算成本，還提高了模型的訓(xùn)練效率。
3. 多模態(tài)表示學(xué)習(xí)：BLIP2的核心目標(biāo)是學(xué)習(xí)多模態(tài)表示，這意味著模型能夠同時理解圖像和文本，并在二者之間建立有意義的關(guān)聯(lián)。這對于諸如圖像標(biāo)注、文本到圖像生成、文檔圖像理解等多模態(tài)任務(wù)非常重要。通過預(yù)訓(xùn)練的方式，BLIP2可以在大規(guī)模多模態(tài)數(shù)據(jù)上學(xué)習(xí)通用的表示，為各種任務(wù)提供了強(qiáng)大的基礎(chǔ)。

Flamingo

Flamingo是一種備受矚目的模型，因其在多模態(tài)信息處理方面引入了創(chuàng)新性的設(shè)計而備受關(guān)注。下面是對Flamingo的更詳細(xì)介紹：

1.引入Gated Attention層：Flamingo的一個顯著特點(diǎn)是在LLM（Language-Layout-Model）中引入了Gated Attention層。這一層的作用是引入視覺信息，并將其融合到文本處理過程中。通過Gated Attention，模型可以有選擇性地關(guān)注文本和圖像信息，以便更好地理解多模態(tài)數(shù)據(jù)。
2.多模態(tài)數(shù)據(jù)理解：Flamingo的設(shè)計目標(biāo)之一是使模型能夠有效地理解文本和圖像之間的關(guān)系。通過Gated Attention，模型可以根據(jù)任務(wù)的需要調(diào)整關(guān)注的重點(diǎn)。例如，在圖像標(biāo)注任務(wù)中，模型可以根據(jù)圖像內(nèi)容來調(diào)整生成文本描述的注意力，從而生成更準(zhǔn)確的標(biāo)注。
3.增強(qiáng)了任務(wù)性能：引入Gated Attention層后，Flamingo在多模態(tài)任務(wù)上表現(xiàn)出色。它不僅能夠更好地處理圖像和文本的關(guān)聯(lián)，還可以在各種任務(wù)中提高性能，包括圖像標(biāo)注、視覺問答、文檔圖像理解等。這使得Flamingo成為處理多模態(tài)數(shù)據(jù)的有力工具。

LLaVA

將CLIP ViT-L 和 LLaMA 采用全連接層連接
使用 GPT-4 和 Self-Instruct 生成高質(zhì)量的158k instruction following 數(shù)據(jù)

MiniGPT-4

視覺部分采用 ViT+Q-Former
語言模型部分采用 Vicuna
視覺和語言模塊間采用全連接層銜接

多模態(tài)大模型用于OCR領(lǐng)域的局限性

盡管多模態(tài)大模型在處理顯著文本方面表現(xiàn)出色，但它們?nèi)匀淮嬖谝恍┚窒扌?。這些模型受到視覺編碼器的分辨率和訓(xùn)練數(shù)據(jù)的限制，對于細(xì)粒度文本的處理表現(xiàn)較差。

文檔圖像是更偏向于文字還是更偏向于圖像?

在文檔圖像分析中，存在一個關(guān)鍵問題：文檔圖像是更偏向于文字還是更偏向于圖像？這涉及到對文檔圖像中各種元素的識別和理解。

Pixel2seq大模型系列

Pix2Seq

將目標(biāo)檢測任務(wù)當(dāng)做一個圖像到序列的語言建模任務(wù)來解決。

UniTAB

多模態(tài)編碼器(圖像&文本)+自回歸解碼器完成多種 Vision-Language(VL)任務(wù)。

NOUGAT

通過Swin Transformer 和Transformer Decoder 實(shí)現(xiàn)文檔圖像到文檔序列輸出。

文檔圖像大模型探索

文檔圖像大模型設(shè)計思路

文檔圖像大模型的設(shè)計思路包括了幾個關(guān)鍵要點(diǎn)，這些要點(diǎn)在推動文檔圖像識別和理解方面發(fā)揮了重要作用：

將文檔圖像識別和分析的任務(wù)定義為序列預(yù)測的形式，這包括了對文本、段落、版面分析、表格、公式等元素的預(yù)測。
通過不同的提示（prompt）引導(dǎo)模型執(zhí)行不同的OCR（Optical Character Recognition）任務(wù)，從而提高了模型的多功能性和適用性。
支持篇章級的文檔圖像識別與分析，能夠輸出標(biāo)準(zhǔn)格式的Markdown、HTML或純文本等文檔類型，使模型在處理復(fù)雜文檔時表現(xiàn)出色。
將文檔理解相關(guān)的任務(wù)委托給了LLM（Language-Layout-Model），這一策略有助于提高模型在處理結(jié)構(gòu)化文檔時的效率和準(zhǔn)確性。

SPTS文檔圖像大模型

SPTS (Sequence-to-Sequence Prediction for Text Spotting) ：SPTS 是一種重要的文檔圖像處理模型，將端到端的文本檢測和識別任務(wù)定義為圖片到序列的預(yù)測任務(wù)。這個模型通過單點(diǎn)標(biāo)注來指示文本的位置，從而降低了標(biāo)注成本，并且無需復(fù)雜的后處理步驟。這一方法為文檔圖像處理提供了更高效的解決方案，可以應(yīng)用于場景文本端到端檢測識別、表格結(jié)構(gòu)識別和手寫數(shù)學(xué)公式識別等任務(wù)。

SPTS

將端到端檢測識別定義為圖片到序列的預(yù)測任務(wù)
采用單點(diǎn)標(biāo)注指示文本位置，極大地降低了標(biāo)注成本
無需Rol采樣和復(fù)雜的后處理操作，真正將檢測識別融為一體

基于SPTS的OCR大一統(tǒng)模型(SPTS v3)

將多種OCR任務(wù)定義為序列預(yù)測的形式
通過不同的prompt引導(dǎo)模型完成不同的OCR任務(wù)
模型沿用SPTS的CNN+Transformer Encoder+Transformer Decoder的圖片到序列的結(jié)構(gòu)

SPTSv3的任務(wù)定義

SPTSv3 將多種OCR任務(wù)定義為序列預(yù)測的形式，包括端到端檢測識別、表格結(jié)構(gòu)識別和手寫數(shù)學(xué)公式識別。這一模型通過不同的提示（prompt）來引導(dǎo)模型完成不同的OCR任務(wù)，使其更加靈活和多用途。

實(shí)驗(yàn)結(jié)果表明，SPTSv3 在各個OCR任務(wù)上都取得了出色的性能，顯示了其在文檔圖像處理中的潛力。這為文檔圖像的多任務(wù)處理提供了一種高效的解決方案，有望應(yīng)用于廣泛的應(yīng)用領(lǐng)域，包括自動化文檔處理、文檔搜索和內(nèi)容提取等。

訓(xùn)練平臺:A100GPUx10

場景文本端到端檢測識別

表格結(jié)構(gòu)識別

手寫數(shù)學(xué)公式識別

實(shí)驗(yàn)結(jié)果

總結(jié)

在本次2023年第十二屆中國智能產(chǎn)業(yè)高峰論壇上，丁凱博士的演講引領(lǐng)我們深入文檔大模型的前沿研究。他分享了關(guān)于文檔大模型的最新研究成果，介紹了合合信息科技公司以及文檔圖像分析識別與理解領(lǐng)域的挑戰(zhàn)。演講還提到了當(dāng)前的技術(shù)難題和未來的研究方向，旨在實(shí)現(xiàn)更靈活的文檔圖像處理。為文檔圖像處理的未來帶來了更多的可能性。這次精彩的演講讓我們對智能產(chǎn)業(yè)的發(fā)展充滿了信心，期待著更多創(chuàng)新和突破。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

目錄

前言