九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
最好用的掃描儀文字識(shí)別軟件(ORC)是什么?
ocr是英文optical character recognition的縮寫,翻譯成中文就是通過光學(xué)技術(shù)對(duì)文字進(jìn)行識(shí)別的意思, 是自動(dòng)識(shí)別技術(shù)研究和應(yīng)用領(lǐng)域中的一個(gè)重要方面。它是一種能夠?qū)⑽淖肿詣?dòng)識(shí)別錄入到電腦中的軟件技術(shù),是與掃描儀配套的主要軟件,屬于非鍵盤輸入范疇,需要圖像輸入設(shè)備主要是掃描儀相配合?,F(xiàn)在ocr主要是指文字識(shí)別軟件,在1996年清華紫光開始搭配中文識(shí)別軟件之前,市場(chǎng)上的掃描儀和ocr軟件一直是分開銷售的,專業(yè)的ocr軟件在早些時(shí)候賣得比掃描儀還要貴。隨著掃描儀分辨率的提升,ocr軟件也在不斷升級(jí),掃描儀廠商現(xiàn)在已把專業(yè)的ocr軟件搭配自己生產(chǎn)的掃描儀出售。ocr技術(shù)的迅速發(fā)展與掃描儀的廣泛使用是密不可分的,近兩年隨著掃描儀逐漸普及和ocr技術(shù)的日臻完善,ocr己成為絕大多數(shù)掃描儀用戶的得力助手。

一、ocr技術(shù)的發(fā)展歷程

  自20世紀(jì)60年代初期出現(xiàn)第一代ocr產(chǎn)品開始,經(jīng)過30多年的不斷發(fā)展改進(jìn),包括手寫體的各種ocr技術(shù)的研究取得了令人矚目的成果,人們對(duì)ocr產(chǎn)品的功能要求也從原來的單純注重識(shí)別率,發(fā)展到對(duì)整個(gè)ocr系統(tǒng)的識(shí)別速度、用戶界面的友好性、操作的簡(jiǎn)便性、產(chǎn)品的穩(wěn)定性、適應(yīng)性、可靠性和易升級(jí)性、售前售后服務(wù)質(zhì)量等各方面提出更高的要求。

  ibm公司最早開發(fā)了ocr產(chǎn)品,1965年在紐約世界博覽會(huì)上展出了ibm公司的ocr產(chǎn)品——ibml287。當(dāng)時(shí)的這款產(chǎn)品只能識(shí)別印刷體的數(shù)字、英文字母及部分符號(hào),并且必須是指定的字體。20世紀(jì)60年代末,日立公司和富士通公司也分別研制出各自的ocr產(chǎn)品。全世界第一個(gè)實(shí)現(xiàn)手寫體郵政編碼識(shí)別的信函自動(dòng)分揀系統(tǒng)是由日本東芝公司研制的,兩年后nec公司也推出了同樣的系統(tǒng)。到了1974年,信函的自動(dòng)分揀率達(dá)到92%左右,并且廣泛地應(yīng)用在郵政系統(tǒng)中,發(fā)揮著較好的作用。1983年日本東芝公司發(fā)布了其識(shí)別印刷體日文漢字的ocr系統(tǒng)ocrv595,其識(shí)別速度為每秒70~100個(gè)漢字,識(shí)別率為99.5%。其后東芝公司又開始了手寫體日文漢字識(shí)別的研究工作。

  中國(guó)在ocr技術(shù)方面的研究工作相對(duì)起步較晚,在20世紀(jì)70年代才開始對(duì)數(shù)字、英文字母及符號(hào)的識(shí)別技術(shù)進(jìn)行研究,20世紀(jì)70年代末開始進(jìn)行漢字識(shí)別的研究。1986年,國(guó)家863計(jì)劃信息領(lǐng)域課題組織了清華大學(xué)、北京信息工程學(xué)院、沈陽(yáng)自動(dòng)化所三家單位聯(lián)合進(jìn)行中文ocr軟件的開發(fā)工作。至1989年,清華大學(xué)率先推出了國(guó)內(nèi)第一套中文ocr軟件清華文通th-ocr1.0版,至此中文ocr正式從實(shí)驗(yàn)室走向了市場(chǎng)。清華ocr印刷體漢字識(shí)別軟件其后又推出了th-ocr 92高性能實(shí)用簡(jiǎn)/繁體、多字體、多功能印刷漢字識(shí)別系統(tǒng),使印刷體漢字識(shí)別技術(shù)又取得重大進(jìn)展。到1994年推出的th-ocr 94高性能漢英混排印刷文本識(shí)別系統(tǒng),則被專家鑒定為“是國(guó)內(nèi)外首次推出的漢英混排印刷文本識(shí)別系統(tǒng),總體上居國(guó)際領(lǐng)先水平”。上個(gè)世紀(jì)90年代中后期,清華大學(xué)電子工程系提出并進(jìn)行了漢字識(shí)別綜合研究,使?jié)h字識(shí)別技術(shù)在印刷體文本、聯(lián)機(jī)手寫漢字識(shí)別、脫機(jī)手寫漢字識(shí)別和脫機(jī)手寫數(shù)字符號(hào)識(shí)別等領(lǐng)域全面地取得了重要成果。具有代表性的成果是th-ocr 97綜合集成漢字識(shí)別系統(tǒng),它可以完成多文種(漢、英、日)印刷文本、聯(lián)機(jī)手寫漢字、脫機(jī)手寫漢字和手寫數(shù)字的識(shí)別輸入。幾年來,除清華文通th-ocr外,其它如尚書sh-ocr等各具風(fēng)格的ocr軟件也相繼問世,中文ocr市場(chǎng)穩(wěn)步擴(kuò)大,用戶遍布世界各地。

  可以說目前印刷體ocr的識(shí)別技術(shù)已經(jīng)達(dá)到較高水平。ocr產(chǎn)品已由早期的只能識(shí)別指定的印刷體數(shù)字、英文字母和部分符號(hào),發(fā)展成為可以自動(dòng)進(jìn)行版面分析、表格識(shí)別,實(shí)現(xiàn)混合文字、多字體、多字號(hào)、橫豎混排識(shí)別的強(qiáng)大的計(jì)算機(jī)信息快速錄入工具。對(duì)印刷體漢字的識(shí)別率達(dá)到98%以上,即使對(duì)印刷質(zhì)量較差的文字其識(shí)別率也達(dá)到95%以上??勺R(shí)別宋體、黑體、楷體、仿宋體等多種字體的簡(jiǎn)、繁體,并且可以對(duì)多種字體、不同字號(hào)混合排版進(jìn)行識(shí)別,對(duì)手寫體漢字的識(shí)別率達(dá)到70%以上。特別是我國(guó)的漢字ocr技術(shù)經(jīng)過十幾年的努力,克服了起步晚、漢字字符集異常龐大等困難,單字的識(shí)別速度(指在單位時(shí)間內(nèi)所完成的從特征提取到識(shí)別結(jié)果輸出的字?jǐn)?shù))可以達(dá)到70字/秒以上。由于印刷體ocr漢字識(shí)別技術(shù)已經(jīng)比較成熟,所以ocr產(chǎn)品被廣泛地應(yīng)用在新聞、印刷、出版、圖書館、辦公自動(dòng)化等各個(gè)行業(yè)。

  專業(yè)型ocr產(chǎn)品多是面向特定的行業(yè),即適用于每天需處理大量表格信息錄入的部門,如郵政、稅務(wù)、海關(guān)、統(tǒng)計(jì)等等。這種面向特定行業(yè)的專業(yè)型ocr系統(tǒng),格式較為固定,識(shí)別的字符集相對(duì)較小,經(jīng)常與專用的輸入設(shè)備結(jié)合使用,因此具有速度快、效率高等特點(diǎn),比如郵件自動(dòng)分揀系統(tǒng)等。

  手寫文稿的識(shí)別直到1996、1997年才開始有產(chǎn)品問世,而且是作為印刷文稿識(shí)別產(chǎn)品的一項(xiàng)附加功能提供的。由于人寫字的習(xí)慣千差萬別,實(shí)現(xiàn)自由手寫體識(shí)別相當(dāng)困難,所以手寫體ocr技術(shù)的使用領(lǐng)域是聯(lián)機(jī)手寫體識(shí)別,即人一邊寫,計(jì)算機(jī)一邊識(shí)別,是一種實(shí)時(shí)識(shí)別方式。

二、OCR的基本原理

  簡(jiǎn)單地說,OCR的基本原理就是通過掃描儀將一份文稿的圖像輸入給計(jì)算機(jī),然后由計(jì)算機(jī)取出每個(gè)文字的圖像,并將其轉(zhuǎn)換成漢字的編碼。其具體工作過程是,掃描儀將漢字文稿通過電荷耦合器件CCD將文稿的光信號(hào)轉(zhuǎn)換為電信號(hào),經(jīng)過模擬/數(shù)字轉(zhuǎn)換器轉(zhuǎn)化為數(shù)字信號(hào)傳輸給計(jì)算機(jī)。計(jì)算機(jī)接受的是文稿的數(shù)字圖像,其圖像上的漢字可能是印刷漢字,也可能是手寫漢字,然后對(duì)這些圖像中的漢字進(jìn)行識(shí)別。對(duì)于印刷體字符,首先采用光學(xué)的方式將文檔資料轉(zhuǎn)換成原始黑白點(diǎn)陣的圖像文件,再通過識(shí)別軟件將圖像中的文字轉(zhuǎn)換成文本格式,以便文字處理軟件的進(jìn)一步加工。其中文字識(shí)別是OCR的重要技術(shù)。

1.OCR識(shí)別的兩種方式

  與其它信息數(shù)據(jù)一樣,在計(jì)算機(jī)中所有掃描儀捕捉到的圖文信息都是用0、1這兩個(gè)數(shù)字來記錄和進(jìn)行識(shí)別的,所有信息都只是以0、1保存的一串串點(diǎn)或樣本點(diǎn)。OCR識(shí)別程序識(shí)別頁(yè)面上的字符信息,主要通過單元模式匹配法和特征提取法兩種方式進(jìn)行字符識(shí)別。

  單元模式匹配識(shí)別法(Pattern Matching)是將每一個(gè)字符與保存有標(biāo)準(zhǔn)字體和字號(hào)位圖的文件進(jìn)行不嚴(yán)格的比較。如果應(yīng)用程序中有一個(gè)已保存字符的大數(shù)據(jù)庫(kù),則應(yīng)用程序會(huì)選取合適的字符進(jìn)行正確的匹配。軟件必須使用一些處理技術(shù),找出最相似的匹配,通常是不斷試驗(yàn)同一個(gè)字符的不同版本來比較。有些軟件可以掃描一頁(yè)文本,并鑒別出定義新字體的每一個(gè)字符。有些軟件則使用自己的識(shí)別技術(shù),盡其所能鑒別頁(yè)面上的字符,然后將不可識(shí)別的字符進(jìn)行人工選擇或直接錄入。

  特征提取識(shí)別法(Feature Extraction)是將每個(gè)字符分解為很多個(gè)不同的字符特征,包括斜線、水平線和曲線等。然后,又將這些特征與理解(識(shí)別)的字符進(jìn)行匹配。舉個(gè)簡(jiǎn)單的例子,應(yīng)用程序識(shí)別到兩條水平橫線,它就會(huì)“認(rèn)為”該字符可能是“二”。特征提取法的優(yōu)點(diǎn)是可以識(shí)別多種字體,例如中文書法體就是采用特征提取法實(shí)現(xiàn)字符識(shí)別的。

  多數(shù)OCR應(yīng)用軟件都加入了語(yǔ)法智能檢查功能,這種功能進(jìn)一步提高了識(shí)別率。它主要通過上下文檢查法實(shí)現(xiàn)拼寫和語(yǔ)法的糾正,在文字識(shí)別時(shí),OCR應(yīng)用程序會(huì)做多次的上下文銜接性檢查,根據(jù)程序中已經(jīng)存在的詞組、固定的用詞順序,對(duì)應(yīng)的檢查字符串的用詞字。比較高級(jí)的應(yīng)用軟件會(huì)自動(dòng)用它“認(rèn)為”正確的詞語(yǔ)替換錯(cuò)誤詞語(yǔ),糾正語(yǔ)句意思。


2.文字識(shí)別的幾個(gè)步驟

  文字識(shí)別包括以下幾個(gè)步驟:圖文輸入、預(yù)處理、單字識(shí)別和后處理等。

(1)圖文輸入

  是指通過輸入設(shè)備將文檔輸入到計(jì)算機(jī)中,也就是實(shí)現(xiàn)原稿的數(shù)字化?,F(xiàn)在用得比較普遍的設(shè)備是掃描儀。文檔圖像的掃描質(zhì)量是OCR軟件正確識(shí)別的前提條件。恰當(dāng)?shù)剡x擇掃描分辨率及相關(guān)參數(shù),是保證文字清楚、特征不丟失的關(guān)鍵。此外,文檔盡可能地放置端正,以保證預(yù)處理檢測(cè)的傾斜角小,在進(jìn)行傾斜校正后,文字圖像的變形就小。這些簡(jiǎn)單的操作,會(huì)使系統(tǒng)的識(shí)別正確率有所提高。反之,由于掃描設(shè)置不當(dāng),文字的斷筆過多可能會(huì)分檢出半個(gè)文字的圖像。文字?jǐn)喙P和筆畫粘連會(huì)造成有些特征丟失,在將其特征與特征庫(kù)比較時(shí),會(huì)使其特征距離加大,識(shí)別錯(cuò)誤率上升。

(2)預(yù)處理

  掃描一幅簡(jiǎn)單的印刷文檔的圖像,將每一個(gè)文字圖像分檢出來交給識(shí)別模塊識(shí)別,這一過程稱為圖像預(yù)處理。預(yù)處理是指在進(jìn)行文字識(shí)別之前的一些準(zhǔn)備工作,包括圖像凈化處理,去掉原始圖像中的顯見噪聲(干擾)。主要任務(wù)是測(cè)量文檔放置的傾斜角,對(duì)文檔進(jìn)行版面分析,對(duì)選出的文字域進(jìn)行排版確認(rèn),對(duì)橫、豎排版的文字行進(jìn)行切分,每一行的文字圖像的分離,標(biāo)點(diǎn)符號(hào)的判別等。這一階段的工作非常重要,處理的效果直接影響到文字識(shí)別的準(zhǔn)確率。

   版面分析是對(duì)文本圖像的總體分析,是將文檔中的所有文字塊分檢出來,區(qū)分出文本段落及排版順序,以及圖像、表格的區(qū)域。將各文字塊的域界(域在圖像中的始點(diǎn)、終點(diǎn)坐標(biāo)),域內(nèi)的屬性(橫、豎排版方式)以及各文字塊的連接關(guān)系作為一種數(shù)據(jù)結(jié)構(gòu),提供給識(shí)別模塊自動(dòng)識(shí)別。對(duì)于文本區(qū)域直接進(jìn)行識(shí)別處理,對(duì)于表格區(qū)域進(jìn)行專用的表格分析及識(shí)別處理,對(duì)于圖像區(qū)域進(jìn)行壓縮或簡(jiǎn)單存儲(chǔ)。行字切分是將大幅的圖像先切割為行,再?gòu)膱D像行中分離出單個(gè)字符的過程。


(3)單字識(shí)別

  單字識(shí)別是體現(xiàn)OCR文字識(shí)別的核心技術(shù)。從掃描文本中分檢出的文字圖像,由計(jì)算機(jī)將其圖形、圖像轉(zhuǎn)變成文字的標(biāo)準(zhǔn)代碼,是讓計(jì)算機(jī)“認(rèn)字”的關(guān)鍵,也就是所謂的識(shí)別技術(shù)。就像人腦認(rèn)識(shí)文字是因?yàn)樵谌四X中已經(jīng)保存了文字的各種特征,如文字的結(jié)構(gòu)、文字的筆畫等。要想讓計(jì)算機(jī)來識(shí)別文字,也需要先將文字的特征等信息儲(chǔ)存到計(jì)算機(jī)里,但要儲(chǔ)存什么樣的信息及怎樣來獲取這些信息是一個(gè)很復(fù)雜的過程,而且要達(dá)到非常高的識(shí)別率才能符合要求。通常采用的做法是根據(jù)文字的筆畫、特征點(diǎn)、投影信息、點(diǎn)的區(qū)域分布等進(jìn)行分析。

  中國(guó)漢字常用的就有幾千,識(shí)別技術(shù)就是特征比較技術(shù),通過和識(shí)別特征庫(kù)的比較,找到特征最相似的字,提取該文字的標(biāo)準(zhǔn)代碼,即為識(shí)別結(jié)果。比較是人們認(rèn)識(shí)事物的一種基本方法,漢字識(shí)別也是通過比較找出漢字之間的相同、相似、相異,把握其量和質(zhì)的關(guān)系,以及時(shí)間與空間的關(guān)系等。對(duì)于大字符集的漢字一般采用多級(jí)分類,多特征、全方位動(dòng)態(tài)匹配求相似集,以保證分類率高、適應(yīng)性強(qiáng)、穩(wěn)定性好;細(xì)分類重點(diǎn)在于對(duì)相似集求異匹配、加權(quán)處理、結(jié)構(gòu)判別,定量、定性分析,以及前后聯(lián)接詞的關(guān)系,最后進(jìn)行判別。漢字識(shí)別實(shí)質(zhì)上是比較科學(xué)或認(rèn)知科學(xué)在人工智能方面的應(yīng)用,其關(guān)鍵技術(shù)是識(shí)別特征庫(kù)。計(jì)算機(jī)有了這樣的一個(gè)特征庫(kù),才能完成認(rèn)字的功能。

  在圖像文檔的版面中,除了有文字、圖片,有時(shí)還會(huì)有表格存在,為了使識(shí)別后的表格數(shù)字化,需要在版面分析過程中,對(duì)表格域進(jìn)行特殊的處理,它包括對(duì)表格線的結(jié)構(gòu)信息的提取,對(duì)表格內(nèi)文字域的分檢,完成對(duì)表格線和對(duì)文字域的識(shí)別,并根據(jù)表格線的數(shù)字化生成不同的文件格式。由于文檔中的表格隨意性大,格式多樣,有封閉式的,也有開放式的,特別是表格中的斜線,給表格分析造成一定的困難。

(4)后處理

  后處理是指對(duì)識(shí)別出的文字或多個(gè)識(shí)別結(jié)果采用詞組方式進(jìn)行上下匹配,即將單字識(shí)別的結(jié)果進(jìn)行分詞,與詞庫(kù)中的詞組進(jìn)行比較,以提高系統(tǒng)的識(shí)別率,減少誤識(shí)率。

  漢字字符識(shí)別是文字識(shí)別領(lǐng)域最為困難的問題,它涉及模式識(shí)別、圖像處理、數(shù)字信號(hào)處理、自然語(yǔ)言理解、人工智能、模糊數(shù)學(xué)、信息論、計(jì)算機(jī)、中文信息處理等學(xué)科,是一門綜合性技術(shù)。近幾年來,印刷漢字識(shí)別系統(tǒng)的單字識(shí)別正確率已經(jīng)超過95%,為了進(jìn)一步提高系統(tǒng)的總體識(shí)別率,掃描圖像、圖像的預(yù)處理以及識(shí)別后處理等方面的技術(shù)也都得到了深入的研究,并取得了長(zhǎng)足的進(jìn)展,有效地提高了印刷漢字識(shí)別系統(tǒng)的總體性能。清華大學(xué)在此方面的研究成果突出,已經(jīng)成為世界上的最具權(quán)威的機(jī)構(gòu)之一。目前,清華紫光的全系列掃描儀中都配裝了清華OCR千禧版軟件,它在識(shí)別率、表格識(shí)別甚至規(guī)范手寫體的識(shí)別方面,均達(dá)到了較高水平。

三、ocr文字識(shí)別技巧

  在最近幾年中,ocr識(shí)別技術(shù)隨著掃描儀的普及得到了飛速的發(fā)展,掃描、識(shí)別軟件的性能不斷強(qiáng)大并向智能化不斷升級(jí)發(fā)展。但是要想快速地獲取正確的掃描結(jié)果,得到高效率的文字錄入,必須認(rèn)真學(xué)習(xí)有關(guān)知識(shí),結(jié)合實(shí)踐經(jīng)驗(yàn),摸索出自己的全套解決方案。有時(shí)我們?cè)谧魑淖肿R(shí)別工作時(shí)識(shí)別率非常低,根本達(dá)不到軟件所說的95%以上,請(qǐng)先不要責(zé)怪硬件或軟件,其實(shí)這是沒有掌握好掃描及ocr識(shí)別技巧的原因。

  下面是文字識(shí)別操作中經(jīng)常用到了一些方法和技巧。

  1.分辨率的設(shè)置是文字識(shí)別的重要前提。一般來講,掃描儀提供較多的圖像信息,識(shí)別軟件比較容易得出識(shí)別結(jié)果。但也不是掃描分辨率設(shè)得越高識(shí)別正確率就越高。選擇300dpi或400dpi分辨率,適合大部分文檔掃描。注意文字原稿的掃描識(shí)別,設(shè)置掃描分辨率時(shí)千萬不要超過掃描儀的光學(xué)分辨率,不然會(huì)得不償失。下面是部分典型設(shè)置,僅供參考。
  (1)1、2、3號(hào)字的文章段,推薦使用200dpi。
  (2)4、小4、5號(hào)字的文章段,推薦使用300dpl
  (3)小5、6號(hào)字的文章段,推薦使用400dpl
  (4)7、8號(hào)字的文章段,推薦使用600dpi。

  2. 掃描時(shí)適當(dāng)?shù)卣{(diào)整好亮度和對(duì)比度值,使掃描文件黑白分明。這對(duì)識(shí)別率的影響最為關(guān)鍵,掃描亮度和對(duì)比度值的設(shè)定以觀察掃描后的圖像中漢字的筆畫較細(xì)但又不斷開為原則。進(jìn)行識(shí)別前,先看看掃描得到的圖像中文字質(zhì)量如何,如果圖像存在黑點(diǎn)或黑斑時(shí)或文字線條很粗很黑,分不清筆畫時(shí),說明亮度值太小了,應(yīng)該增加亮度值在試試;如果文字線條凹凸不平,有斷線甚至圖像中漢字輪廓嚴(yán)重殘缺時(shí),說明亮度值太大了,應(yīng)減小亮度后再試試。

  3.選好掃描軟件。選一款好的適合自己的ocr軟件是作好文字識(shí)別工作的基礎(chǔ),一般不要使用掃描儀自帶的oem軟件,oem的ocr軟件的功能少、效果差,有的甚至沒有中文識(shí)別,經(jīng)過比較,我認(rèn)為清華紫光ocr2003專業(yè)版和尚書ocr6.0文本自動(dòng)識(shí)別輸入系統(tǒng)的識(shí)別能力與使用功能更突出一些。再選一個(gè)圖像軟件,ocr軟件不是有掃描接口嗎?為什么還找圖像軟件?第一,ocr軟件不能識(shí)別所有的掃描儀;第二,也是最關(guān)鍵的,利用圖像軟件的掃描接口掃描出來的圖像便于處理;一般選用photoshop。


  4.如果要進(jìn)行的文本是帶有格式的,如粗體、斜體、首行縮進(jìn)等,部分ocr軟件識(shí)別不出來,會(huì)丟失格式或出現(xiàn)亂碼。如果必須掃描帶有格式的文本,事先要確保使用的識(shí)別軟件是否支持文字格式的掃描。也可以關(guān)閉樣式識(shí)別系統(tǒng),使軟件集中注意力查找正確的字符,不再顧及字體和字體格式。

  5.在掃描識(shí)別報(bào)紙或其他半透明文稿時(shí),背面的文字透過紙張混淆文字字形,對(duì)識(shí)別會(huì)造成很大的障礙。遇到該類掃描,只要在掃描原稿的背面附。蓋一張黑紙,掃描時(shí),增加掃描對(duì)比度,即可減少背面模糊字體的影響,提高識(shí)別正確率,

  6.一般文本掃描原稿都為黑、白兩色原稿,但是在掃描設(shè)置時(shí)卻常將掃描模式設(shè)為灰度模式。特別是在原稿質(zhì)量較差時(shí),使用灰度模式掃描,并在掃描軟件處理完后再繼續(xù)識(shí)別,這樣會(huì)得到較好的識(shí)別正確率。值得注意的是ocr識(shí)別軟件可以自己確定閥值,幾個(gè)百分點(diǎn)的閥值差異,可能就會(huì)影響識(shí)別的正常進(jìn)行。當(dāng)然,得到的圖像文件的大小會(huì)比黑白文件大很多。在進(jìn)行大批量文稿掃描時(shí),必須對(duì)原稿進(jìn)行測(cè)試,找到最佳的閥值百分比。

  7.遇到圖文混排的掃描原稿,首先明確使用的識(shí)別軟件是否支持自動(dòng)分析圖文這一功能。如果支持的話,在進(jìn)行這類掃描識(shí)別時(shí),ocr軟件會(huì)自動(dòng)計(jì)算出文本的內(nèi)容、位置和先后順序。文字部分可以按照標(biāo)示順序正常識(shí)別。

  8.手動(dòng)選取掃描區(qū)域會(huì)有更好識(shí)別效果。設(shè)置好參數(shù)后,先預(yù)覽一下,然后開始選取掃描區(qū)域。不要將要用的文章一股腦兒選在一個(gè)區(qū)域內(nèi),因?yàn)楝F(xiàn)在的文章排版為了追求更好的視覺效果,使用圖文混排的較多,掃成一幅圖像會(huì)影響ocr識(shí)別。因此,要根據(jù)實(shí)際情況將版面分成n個(gè)區(qū)域,怎么劃分區(qū)域呢?每一區(qū)域內(nèi)的文字字體、字號(hào)最好一致,沒有圖形、圖像,每一行的寬度一致,遇到長(zhǎng)短不一,再細(xì)分,一般一次最多可掃描10個(gè)選區(qū)。根據(jù)不同情況,合理地設(shè)置識(shí)別區(qū)域的順序。不要嫌這個(gè)過程太煩,那可是提高識(shí)別率的有效手段。注意各識(shí)別區(qū)域不能有交叉,做到一切覺得完好以后再進(jìn)行識(shí)別。這樣一般的識(shí)別率會(huì)在95%以上,對(duì)于識(shí)別不正確的文字進(jìn)行校對(duì)后,就可以進(jìn)入相應(yīng)的文字處理軟件進(jìn)行所需的處理了。


  9.在放置掃描原稿時(shí),把掃描的文字材料一定要擺放在掃描起始線正中,以最大限度地減小由于光學(xué)透鏡導(dǎo)致的失真。同時(shí)應(yīng)保護(hù)掃描儀玻璃的干凈和不受損害。 文字有一定角度的傾斜,或者是原稿文字部分為不正規(guī)排版,必須在掃描后使用旋轉(zhuǎn)工具,進(jìn)行糾正;否則ocr識(shí)別軟件會(huì)將水平筆劃當(dāng)做斜筆劃處理,識(shí)別正確率會(huì)下降很多。建議用戶盡量將掃描原稿放正,用工具旋轉(zhuǎn)糾正會(huì)降低圖像質(zhì)量,使字符識(shí)別更加困難。

  10.先"預(yù)覽"整體版面,選定要掃描的區(qū)域,再用"放大預(yù)覽"工具,選擇一小塊進(jìn)行放大顯示到全屏幕,觀察其文字的對(duì)比度,文字的深淺濃度,據(jù)情況調(diào)整"閥值"的大小,最終要求文字清晰,不濃(文字成團(tuán)),不淡(文字?jǐn)喙P伐),一般在"閥值"80左右為宜,最后再掃描。

  11.用工具擦掉圖像污點(diǎn),包括原來版面中的不需要識(shí)別的插圖、分隔線等,使文字圖像中除了文字沒有一點(diǎn)多余的東西;這可以大提高識(shí)別率并減少識(shí)別后的修改工作。

  12.如果要掃描印刷質(zhì)量稍微差一些的文章,比如說報(bào)紙,掃描的結(jié)果將不會(huì)黑白分明,會(huì)出現(xiàn)大量的黑點(diǎn),而且在字體的筆畫上也會(huì)出現(xiàn)粘連現(xiàn)象,這兩項(xiàng)可是漢字識(shí)別的大忌,將嚴(yán)重影響漢字識(shí)別的正確率。為獲得較好的識(shí)別結(jié)果,必須仔細(xì)進(jìn)行色調(diào)調(diào)節(jié),反復(fù)掃描多次才能獲得比較理想的結(jié)果。另外由于報(bào)紙很薄且大部分紙質(zhì)不高,導(dǎo)致掃描儀上蓋板不能完全壓住報(bào)紙(有縫隙),所以一般情況下報(bào)紙的掃描識(shí)別效果沒有雜志的效果好。解決辦法是在報(bào)紙上壓一至兩本16k的雜志,效果還是不錯(cuò)的。

四、ocr常見問題的解決

  1.文字校正

  文字校正應(yīng)該是ocr識(shí)別中最麻煩和繁瑣的工作了,要想減少工作量的話,大家可以使用readbook作為文字校正的輔助工具。我們用到的主要功能是: 自動(dòng)平滑滾屏;可以對(duì)文件進(jìn)行局部編輯;具有“智能分段”功能,可以將每行都是硬回車換行的文章,去掉回車重新排列,并且不破壞原有的段落;啟動(dòng)時(shí)可自動(dòng)裝入上次正在閱讀的文章。


  2.表格識(shí)別和編輯

  清華紫光ocr和尚書ocr都提供了表格識(shí)別功能,尚書ocr做得比較好,能夠?qū)Ρ砀襁M(jìn)行自動(dòng)識(shí)別,但在識(shí)別時(shí)要與其它文字版塊區(qū)分劃開,才會(huì)得到整個(gè)頁(yè)面的識(shí)別。我們?cè)谟米瞎鈕cr識(shí)別表格時(shí),往往只能識(shí)別出表頭而無表格。這是因?yàn)樽瞎鈕cr不能對(duì)表格自動(dòng)進(jìn)行劃分,我們需要進(jìn)行手動(dòng)版面分析,單獨(dú)定義出表格屬性。紫光ocr的識(shí)別屬性分為"橫排正文"、"豎排正文"及"表格",只要將表頭單獨(dú)框起來定義為"橫排正文",再單獨(dú)將表格框起來定義為"表格"就可以正確識(shí)別了。
  如果我們用word等編輯軟件將識(shí)別后的表格文件直接打開時(shí),表格可能會(huì)一團(tuán)糟,這是因?yàn)楸砀窬€是被作為字符處理的。解決這個(gè)問題最簡(jiǎn)單的方法是使用wps 2000,它可以將字符型的表格線直接轉(zhuǎn)換成可編輯的表格。如果我們需要在word里進(jìn)行編輯,只需在wps 2000里將文件另存為rtf格式就可以了。注意:請(qǐng)不要使用復(fù)制粘貼,因?yàn)閣ord是將wps 2000的表格作為圖片來處理。

  3.段落重排

  一些朋友在識(shí)別后文本的再處理時(shí),大多將其復(fù)制粘貼到word中,利用word強(qiáng)大的查找替換功能來去掉多余的硬回車。其實(shí)我們完全不需要這樣麻煩,尚書ocr、漢王ocr和紫光ocr都提供了段內(nèi)去硬回車的功能。尚書、漢王使用比較簡(jiǎn)單,只要在識(shí)別后的文本存盤時(shí),選回車設(shè)置為軟回車就行了。對(duì)于紫光ocr則需要在識(shí)別完成后,選擇文件菜單下的導(dǎo)出命令,將存為類型選為txt,段內(nèi)回車字符選為無。注意:一定不要直接存盤,否則不能自動(dòng)去掉文章的硬回車。

  4.軟件的兼容性

  在購(gòu)買掃描儀的時(shí)候,一般都會(huì)隨機(jī)獲贈(zèng)一款ocr識(shí)別軟件。我們也可以另選一些適合自己的ocr識(shí)別軟件,下面就介紹一下兩款主流ocr軟件的兼容性問題。

  (1)清華紫光ocr

  清華紫光ocr 專業(yè)版是紫光系列掃描儀隨機(jī)附贈(zèng)的ocr軟件,它具有支持的圖像格式多,識(shí)別率高,支持表格識(shí)別等特點(diǎn),是一款不錯(cuò)的ocr軟件。但它只支持紫光系列的掃描儀,如果在其它品牌的掃描儀上使用,它會(huì)顯示出錯(cuò)信息,并拒絕工作。

  (2)尚書ocr

  尚書5.0這款ocr識(shí)別軟件,具有識(shí)別率高,界面簡(jiǎn)單友好的特點(diǎn),特別適合于初學(xué)者。它適用于microtek,n-tek,scanpaq,scanport系列掃描儀,該軟件只識(shí)別自己掃描的圖像,很不方便。


  解決方法:其實(shí)解決此類問題也很簡(jiǎn)單,我們可以使用其它圖像處理軟件來進(jìn)行掃描,只要掃描得到的圖像格式能夠被ocr軟件所支持、識(shí)別就可以了。這里介紹一款專為ocr軟件設(shè)計(jì)的圖像增強(qiáng)軟件掃描小精靈,它能有效地提高輸入圖像質(zhì)量,它提供的全自動(dòng)掃描方式、自動(dòng)存盤功能,特別適合于需要大量處理文稿的用戶。根據(jù)實(shí)驗(yàn),掃描小精靈的tif圖像輸出格式全面兼容紫光ocr v7.5 32位專業(yè)版、漢王ocr 5.0、尚書5.0、北信ocr(wps2000手寫系統(tǒng)中攜帶的)等。此軟件大家可以到http://jwsg.yeah.net下載。

  5.用ocr識(shí)別軟件處理傳真文件

  利用計(jì)算機(jī)收發(fā)傳真已經(jīng)不是什么新鮮事了,有的人甚至通過一定的方法把傳真機(jī)和計(jì)算機(jī)連接起來作為掃描儀使用。利用ocr識(shí)別軟件對(duì)傳真文件進(jìn)行處理可以大方便我們的辦公工作。雖然幾乎所有的傳真軟件都支持將收到的傳真件存為tif圖像文件,但這種tif圖像文件是不能直接被ocr軟件所識(shí)別的。

  解決方法:根據(jù)我們的實(shí)驗(yàn),2值(bitmap、黑白)、ibm pc格式、沒有l(wèi)zw壓縮的tif圖像格式能夠被大多數(shù)的ocr軟件所識(shí)別,可用的ocr軟件有紫光ocr v7.5 32位專業(yè)版、漢王ocr 5.0、北信ocr等。所以只要將得到的傳真文件轉(zhuǎn)換成以上格式就行了。比如photoimpact5.0 (掃描儀隨機(jī)附贈(zèng)的),利用其文件菜單下的批量轉(zhuǎn)換功能可以很方便的將批量文件轉(zhuǎn)換為ibm pc格式,沒有l(wèi)zw壓縮的tif圖像。其它圖像處理軟件如photoshop也可以。

  對(duì)于尚書5.0我們還需用到尚書5號(hào)ocr軟件tif文件轉(zhuǎn)換器,下載地址是http://dihou.126.com。此軟件能將2值(bitmap、黑白)、ibm pc格式、沒有l(wèi)zw壓縮的tif圖像轉(zhuǎn)換為尚書5.0能識(shí)別的格式。使用很簡(jiǎn)單,按"添加文件"按鈕將文件加入待處理的文件列表,按"開始"按鈕開始處理,完成后的文件自動(dòng)加前綴dh-。
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
如何把掃描儀掃描到電腦里的文章(手寫的)轉(zhuǎn)換成word格式的?
掃描圖轉(zhuǎn)換成Word其實(shí)很簡(jiǎn)單
掃描文件如何轉(zhuǎn)word
怎么把JPG文件上的文字轉(zhuǎn)換成文本文件上的文字?
把掃描的文檔轉(zhuǎn)成電子版
什么是OCR
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服