福利片免费,午夜毛片福利,日本高清一道本

ocr是英文optical character recognition的縮寫，翻譯成中文就是通過光學(xué)技術(shù)對(duì)文字進(jìn)行識(shí)別的意思, 是自動(dòng)識(shí)別技術(shù)研究和應(yīng)用領(lǐng)域中的一個(gè)重要方面。它是一種能夠?qū)⑽淖肿詣?dòng)識(shí)別錄入到電腦中的軟件技術(shù)，是與掃描儀配套的主要軟件，屬于非鍵盤輸入范疇，需要圖像輸入設(shè)備主要是掃描儀相配合?，F(xiàn)在ocr主要是指文字識(shí)別軟件，在1996年清華紫光開始搭配中文識(shí)別軟件之前，市場(chǎng)上的掃描儀和ocr軟件一直是分開銷售的，專業(yè)的ocr軟件在早些時(shí)候賣得比掃描儀還要貴。隨著掃描儀分辨率的提升，ocr軟件也在不斷升級(jí)，掃描儀廠商現(xiàn)在已把專業(yè)的ocr軟件搭配自己生產(chǎn)的掃描儀出售。ocr技術(shù)的迅速發(fā)展與掃描儀的廣泛使用是密不可分的，近兩年隨著掃描儀逐漸普及和ocr技術(shù)的日臻完善，ocr己成為絕大多數(shù)掃描儀用戶的得力助手。

一、ocr技術(shù)的發(fā)展歷程

　　自20世紀(jì)60年代初期出現(xiàn)第一代ocr產(chǎn)品開始，經(jīng)過30多年的不斷發(fā)展改進(jìn)，包括手寫體的各種ocr技術(shù)的研究取得了令人矚目的成果，人們對(duì)ocr產(chǎn)品的功能要求也從原來的單純注重識(shí)別率，發(fā)展到對(duì)整個(gè)ocr系統(tǒng)的識(shí)別速度、用戶界面的友好性、操作的簡(jiǎn)便性、產(chǎn)品的穩(wěn)定性、適應(yīng)性、可靠性和易升級(jí)性、售前售后服務(wù)質(zhì)量等各方面提出更高的要求。

　　ibm公司最早開發(fā)了ocr產(chǎn)品，1965年在紐約世界博覽會(huì)上展出了ibm公司的ocr產(chǎn)品——ibml287。當(dāng)時(shí)的這款產(chǎn)品只能識(shí)別印刷體的數(shù)字、英文字母及部分符號(hào)，并且必須是指定的字體。20世紀(jì)60年代末，日立公司和富士通公司也分別研制出各自的ocr產(chǎn)品。全世界第一個(gè)實(shí)現(xiàn)手寫體郵政編碼識(shí)別的信函自動(dòng)分揀系統(tǒng)是由日本東芝公司研制的，兩年后nec公司也推出了同樣的系統(tǒng)。到了1974年，信函的自動(dòng)分揀率達(dá)到92％左右，并且廣泛地應(yīng)用在郵政系統(tǒng)中，發(fā)揮著較好的作用。1983年日本東芝公司發(fā)布了其識(shí)別印刷體日文漢字的ocr系統(tǒng)ocrv595，其識(shí)別速度為每秒70～100個(gè)漢字，識(shí)別率為99．5％。其后東芝公司又開始了手寫體日文漢字識(shí)別的研究工作。

　　中國(guó)在ocr技術(shù)方面的研究工作相對(duì)起步較晚，在20世紀(jì)70年代才開始對(duì)數(shù)字、英文字母及符號(hào)的識(shí)別技術(shù)進(jìn)行研究，20世紀(jì)70年代末開始進(jìn)行漢字識(shí)別的研究。1986年，國(guó)家863計(jì)劃信息領(lǐng)域課題組織了清華大學(xué)、北京信息工程學(xué)院、沈陽(yáng)自動(dòng)化所三家單位聯(lián)合進(jìn)行中文ocr軟件的開發(fā)工作。至1989年，清華大學(xué)率先推出了國(guó)內(nèi)第一套中文ocr軟件清華文通th-ocr1.0版，至此中文ocr正式從實(shí)驗(yàn)室走向了市場(chǎng)。清華ocr印刷體漢字識(shí)別軟件其后又推出了th-ocr 92高性能實(shí)用簡(jiǎn)／繁體、多字體、多功能印刷漢字識(shí)別系統(tǒng)，使印刷體漢字識(shí)別技術(shù)又取得重大進(jìn)展。到1994年推出的th-ocr 94高性能漢英混排印刷文本識(shí)別系統(tǒng)，則被專家鑒定為“是國(guó)內(nèi)外首次推出的漢英混排印刷文本識(shí)別系統(tǒng)，總體上居國(guó)際領(lǐng)先水平”。上個(gè)世紀(jì)90年代中后期，清華大學(xué)電子工程系提出并進(jìn)行了漢字識(shí)別綜合研究，使?jié)h字識(shí)別技術(shù)在印刷體文本、聯(lián)機(jī)手寫漢字識(shí)別、脫機(jī)手寫漢字識(shí)別和脫機(jī)手寫數(shù)字符號(hào)識(shí)別等領(lǐng)域全面地取得了重要成果。具有代表性的成果是th-ocr 97綜合集成漢字識(shí)別系統(tǒng)，它可以完成多文種(漢、英、日)印刷文本、聯(lián)機(jī)手寫漢字、脫機(jī)手寫漢字和手寫數(shù)字的識(shí)別輸入。幾年來，除清華文通th-ocr外，其它如尚書sh-ocr等各具風(fēng)格的ocr軟件也相繼問世，中文ocr市場(chǎng)穩(wěn)步擴(kuò)大，用戶遍布世界各地。

　　可以說目前印刷體ocr的識(shí)別技術(shù)已經(jīng)達(dá)到較高水平。ocr產(chǎn)品已由早期的只能識(shí)別指定的印刷體數(shù)字、英文字母和部分符號(hào)，發(fā)展成為可以自動(dòng)進(jìn)行版面分析、表格識(shí)別，實(shí)現(xiàn)混合文字、多字體、多字號(hào)、橫豎混排識(shí)別的強(qiáng)大的計(jì)算機(jī)信息快速錄入工具。對(duì)印刷體漢字的識(shí)別率達(dá)到98％以上，即使對(duì)印刷質(zhì)量較差的文字其識(shí)別率也達(dá)到95％以上?？勺R(shí)別宋體、黑體、楷體、仿宋體等多種字體的簡(jiǎn)、繁體，并且可以對(duì)多種字體、不同字號(hào)混合排版進(jìn)行識(shí)別，對(duì)手寫體漢字的識(shí)別率達(dá)到70％以上。特別是我國(guó)的漢字ocr技術(shù)經(jīng)過十幾年的努力，克服了起步晚、漢字字符集異常龐大等困難，單字的識(shí)別速度(指在單位時(shí)間內(nèi)所完成的從特征提取到識(shí)別結(jié)果輸出的字?jǐn)?shù))可以達(dá)到70字／秒以上。由于印刷體ocr漢字識(shí)別技術(shù)已經(jīng)比較成熟，所以ocr產(chǎn)品被廣泛地應(yīng)用在新聞、印刷、出版、圖書館、辦公自動(dòng)化等各個(gè)行業(yè)。

　　專業(yè)型ocr產(chǎn)品多是面向特定的行業(yè)，即適用于每天需處理大量表格信息錄入的部門，如郵政、稅務(wù)、海關(guān)、統(tǒng)計(jì)等等。這種面向特定行業(yè)的專業(yè)型ocr系統(tǒng)，格式較為固定，識(shí)別的字符集相對(duì)較小，經(jīng)常與專用的輸入設(shè)備結(jié)合使用，因此具有速度快、效率高等特點(diǎn)，比如郵件自動(dòng)分揀系統(tǒng)等。

　　手寫文稿的識(shí)別直到1996、1997年才開始有產(chǎn)品問世，而且是作為印刷文稿識(shí)別產(chǎn)品的一項(xiàng)附加功能提供的。由于人寫字的習(xí)慣千差萬別，實(shí)現(xiàn)自由手寫體識(shí)別相當(dāng)困難，所以手寫體ocr技術(shù)的使用領(lǐng)域是聯(lián)機(jī)手寫體識(shí)別，即人一邊寫，計(jì)算機(jī)一邊識(shí)別，是一種實(shí)時(shí)識(shí)別方式。

二、OCR的基本原理

　　簡(jiǎn)單地說，OCR的基本原理就是通過掃描儀將一份文稿的圖像輸入給計(jì)算機(jī)，然后由計(jì)算機(jī)取出每個(gè)文字的圖像，并將其轉(zhuǎn)換成漢字的編碼。其具體工作過程是，掃描儀將漢字文稿通過電荷耦合器件CCD將文稿的光信號(hào)轉(zhuǎn)換為電信號(hào)，經(jīng)過模擬／數(shù)字轉(zhuǎn)換器轉(zhuǎn)化為數(shù)字信號(hào)傳輸給計(jì)算機(jī)。計(jì)算機(jī)接受的是文稿的數(shù)字圖像，其圖像上的漢字可能是印刷漢字，也可能是手寫漢字，然后對(duì)這些圖像中的漢字進(jìn)行識(shí)別。對(duì)于印刷體字符，首先采用光學(xué)的方式將文檔資料轉(zhuǎn)換成原始黑白點(diǎn)陣的圖像文件，再通過識(shí)別軟件將圖像中的文字轉(zhuǎn)換成文本格式，以便文字處理軟件的進(jìn)一步加工。其中文字識(shí)別是OCR的重要技術(shù)。

1．OCR識(shí)別的兩種方式

　　與其它信息數(shù)據(jù)一樣，在計(jì)算機(jī)中所有掃描儀捕捉到的圖文信息都是用0、1這兩個(gè)數(shù)字來記錄和進(jìn)行識(shí)別的，所有信息都只是以0、1保存的一串串點(diǎn)或樣本點(diǎn)。OCR識(shí)別程序識(shí)別頁(yè)面上的字符信息，主要通過單元模式匹配法和特征提取法兩種方式進(jìn)行字符識(shí)別。

　　單元模式匹配識(shí)別法(Pattern Matching)是將每一個(gè)字符與保存有標(biāo)準(zhǔn)字體和字號(hào)位圖的文件進(jìn)行不嚴(yán)格的比較。如果應(yīng)用程序中有一個(gè)已保存字符的大數(shù)據(jù)庫(kù)，則應(yīng)用程序會(huì)選取合適的字符進(jìn)行正確的匹配。軟件必須使用一些處理技術(shù)，找出最相似的匹配，通常是不斷試驗(yàn)同一個(gè)字符的不同版本來比較。有些軟件可以掃描一頁(yè)文本，并鑒別出定義新字體的每一個(gè)字符。有些軟件則使用自己的識(shí)別技術(shù)，盡其所能鑒別頁(yè)面上的字符，然后將不可識(shí)別的字符進(jìn)行人工選擇或直接錄入。

　　特征提取識(shí)別法(Feature Extraction)是將每個(gè)字符分解為很多個(gè)不同的字符特征，包括斜線、水平線和曲線等。然后，又將這些特征與理解(識(shí)別)的字符進(jìn)行匹配。舉個(gè)簡(jiǎn)單的例子，應(yīng)用程序識(shí)別到兩條水平橫線，它就會(huì)“認(rèn)為”該字符可能是“二”。特征提取法的優(yōu)點(diǎn)是可以識(shí)別多種字體，例如中文書法體就是采用特征提取法實(shí)現(xiàn)字符識(shí)別的。

　　多數(shù)OCR應(yīng)用軟件都加入了語(yǔ)法智能檢查功能，這種功能進(jìn)一步提高了識(shí)別率。它主要通過上下文檢查法實(shí)現(xiàn)拼寫和語(yǔ)法的糾正，在文字識(shí)別時(shí)，OCR應(yīng)用程序會(huì)做多次的上下文銜接性檢查，根據(jù)程序中已經(jīng)存在的詞組、固定的用詞順序，對(duì)應(yīng)的檢查字符串的用詞字。比較高級(jí)的應(yīng)用軟件會(huì)自動(dòng)用它“認(rèn)為”正確的詞語(yǔ)替換錯(cuò)誤詞語(yǔ)，糾正語(yǔ)句意思。

2．文字識(shí)別的幾個(gè)步驟

　　文字識(shí)別包括以下幾個(gè)步驟：圖文輸入、預(yù)處理、單字識(shí)別和后處理等。

（1）圖文輸入

　　是指通過輸入設(shè)備將文檔輸入到計(jì)算機(jī)中，也就是實(shí)現(xiàn)原稿的數(shù)字化?，F(xiàn)在用得比較普遍的設(shè)備是掃描儀。文檔圖像的掃描質(zhì)量是OCR軟件正確識(shí)別的前提條件。恰當(dāng)?shù)剡x擇掃描分辨率及相關(guān)參數(shù)，是保證文字清楚、特征不丟失的關(guān)鍵。此外，文檔盡可能地放置端正，以保證預(yù)處理檢測(cè)的傾斜角小，在進(jìn)行傾斜校正后，文字圖像的變形就小。這些簡(jiǎn)單的操作，會(huì)使系統(tǒng)的識(shí)別正確率有所提高。反之，由于掃描設(shè)置不當(dāng)，文字的斷筆過多可能會(huì)分檢出半個(gè)文字的圖像。文字?jǐn)喙P和筆畫粘連會(huì)造成有些特征丟失，在將其特征與特征庫(kù)比較時(shí)，會(huì)使其特征距離加大，識(shí)別錯(cuò)誤率上升。

（2）預(yù)處理

　　掃描一幅簡(jiǎn)單的印刷文檔的圖像，將每一個(gè)文字圖像分檢出來交給識(shí)別模塊識(shí)別，這一過程稱為圖像預(yù)處理。預(yù)處理是指在進(jìn)行文字識(shí)別之前的一些準(zhǔn)備工作，包括圖像凈化處理，去掉原始圖像中的顯見噪聲(干擾)。主要任務(wù)是測(cè)量文檔放置的傾斜角，對(duì)文檔進(jìn)行版面分析，對(duì)選出的文字域進(jìn)行排版確認(rèn)，對(duì)橫、豎排版的文字行進(jìn)行切分，每一行的文字圖像的分離，標(biāo)點(diǎn)符號(hào)的判別等。這一階段的工作非常重要，處理的效果直接影響到文字識(shí)別的準(zhǔn)確率。

　　版面分析是對(duì)文本圖像的總體分析，是將文檔中的所有文字塊分檢出來，區(qū)分出文本段落及排版順序，以及圖像、表格的區(qū)域。將各文字塊的域界(域在圖像中的始點(diǎn)、終點(diǎn)坐標(biāo))，域內(nèi)的屬性(橫、豎排版方式)以及各文字塊的連接關(guān)系作為一種數(shù)據(jù)結(jié)構(gòu)，提供給識(shí)別模塊自動(dòng)識(shí)別。對(duì)于文本區(qū)域直接進(jìn)行識(shí)別處理，對(duì)于表格區(qū)域進(jìn)行專用的表格分析及識(shí)別處理，對(duì)于圖像區(qū)域進(jìn)行壓縮或簡(jiǎn)單存儲(chǔ)。行字切分是將大幅的圖像先切割為行，再?gòu)膱D像行中分離出單個(gè)字符的過程。

（3）單字識(shí)別

　　單字識(shí)別是體現(xiàn)OCR文字識(shí)別的核心技術(shù)。從掃描文本中分檢出的文字圖像，由計(jì)算機(jī)將其圖形、圖像轉(zhuǎn)變成文字的標(biāo)準(zhǔn)代碼，是讓計(jì)算機(jī)“認(rèn)字”的關(guān)鍵，也就是所謂的識(shí)別技術(shù)。就像人腦認(rèn)識(shí)文字是因?yàn)樵谌四X中已經(jīng)保存了文字的各種特征，如文字的結(jié)構(gòu)、文字的筆畫等。要想讓計(jì)算機(jī)來識(shí)別文字，也需要先將文字的特征等信息儲(chǔ)存到計(jì)算機(jī)里，但要儲(chǔ)存什么樣的信息及怎樣來獲取這些信息是一個(gè)很復(fù)雜的過程，而且要達(dá)到非常高的識(shí)別率才能符合要求。通常采用的做法是根據(jù)文字的筆畫、特征點(diǎn)、投影信息、點(diǎn)的區(qū)域分布等進(jìn)行分析。

　　中國(guó)漢字常用的就有幾千，識(shí)別技術(shù)就是特征比較技術(shù)，通過和識(shí)別特征庫(kù)的比較，找到特征最相似的字，提取該文字的標(biāo)準(zhǔn)代碼，即為識(shí)別結(jié)果。比較是人們認(rèn)識(shí)事物的一種基本方法，漢字識(shí)別也是通過比較找出漢字之間的相同、相似、相異，把握其量和質(zhì)的關(guān)系，以及時(shí)間與空間的關(guān)系等。對(duì)于大字符集的漢字一般采用多級(jí)分類，多特征、全方位動(dòng)態(tài)匹配求相似集，以保證分類率高、適應(yīng)性強(qiáng)、穩(wěn)定性好；細(xì)分類重點(diǎn)在于對(duì)相似集求異匹配、加權(quán)處理、結(jié)構(gòu)判別，定量、定性分析，以及前后聯(lián)接詞的關(guān)系，最后進(jìn)行判別。漢字識(shí)別實(shí)質(zhì)上是比較科學(xué)或認(rèn)知科學(xué)在人工智能方面的應(yīng)用，其關(guān)鍵技術(shù)是識(shí)別特征庫(kù)。計(jì)算機(jī)有了這樣的一個(gè)特征庫(kù)，才能完成認(rèn)字的功能。

　　在圖像文檔的版面中，除了有文字、圖片，有時(shí)還會(huì)有表格存在，為了使識(shí)別后的表格數(shù)字化，需要在版面分析過程中，對(duì)表格域進(jìn)行特殊的處理，它包括對(duì)表格線的結(jié)構(gòu)信息的提取，對(duì)表格內(nèi)文字域的分檢，完成對(duì)表格線和對(duì)文字域的識(shí)別，并根據(jù)表格線的數(shù)字化生成不同的文件格式。由于文檔中的表格隨意性大，格式多樣，有封閉式的，也有開放式的，特別是表格中的斜線，給表格分析造成一定的困難。

（4）后處理

　　后處理是指對(duì)識(shí)別出的文字或多個(gè)識(shí)別結(jié)果采用詞組方式進(jìn)行上下匹配，即將單字識(shí)別的結(jié)果進(jìn)行分詞，與詞庫(kù)中的詞組進(jìn)行比較，以提高系統(tǒng)的識(shí)別率，減少誤識(shí)率。

　　漢字字符識(shí)別是文字識(shí)別領(lǐng)域最為困難的問題，它涉及模式識(shí)別、圖像處理、數(shù)字信號(hào)處理、自然語(yǔ)言理解、人工智能、模糊數(shù)學(xué)、信息論、計(jì)算機(jī)、中文信息處理等學(xué)科，是一門綜合性技術(shù)。近幾年來，印刷漢字識(shí)別系統(tǒng)的單字識(shí)別正確率已經(jīng)超過95％，為了進(jìn)一步提高系統(tǒng)的總體識(shí)別率，掃描圖像、圖像的預(yù)處理以及識(shí)別后處理等方面的技術(shù)也都得到了深入的研究，并取得了長(zhǎng)足的進(jìn)展，有效地提高了印刷漢字識(shí)別系統(tǒng)的總體性能。清華大學(xué)在此方面的研究成果突出，已經(jīng)成為世界上的最具權(quán)威的機(jī)構(gòu)之一。目前，清華紫光的全系列掃描儀中都配裝了清華OCR千禧版軟件，它在識(shí)別率、表格識(shí)別甚至規(guī)范手寫體的識(shí)別方面，均達(dá)到了較高水平。

三、ocr文字識(shí)別技巧

　　在最近幾年中，ocr識(shí)別技術(shù)隨著掃描儀的普及得到了飛速的發(fā)展，掃描、識(shí)別軟件的性能不斷強(qiáng)大并向智能化不斷升級(jí)發(fā)展。但是要想快速地獲取正確的掃描結(jié)果，得到高效率的文字錄入，必須認(rèn)真學(xué)習(xí)有關(guān)知識(shí)，結(jié)合實(shí)踐經(jīng)驗(yàn)，摸索出自己的全套解決方案。有時(shí)我們?cè)谧魑淖肿R(shí)別工作時(shí)識(shí)別率非常低，根本達(dá)不到軟件所說的95％以上，請(qǐng)先不要責(zé)怪硬件或軟件，其實(shí)這是沒有掌握好掃描及ocr識(shí)別技巧的原因。

　　下面是文字識(shí)別操作中經(jīng)常用到了一些方法和技巧。

　　1．分辨率的設(shè)置是文字識(shí)別的重要前提。一般來講，掃描儀提供較多的圖像信息，識(shí)別軟件比較容易得出識(shí)別結(jié)果。但也不是掃描分辨率設(shè)得越高識(shí)別正確率就越高。選擇300dpi或400dpi分辨率，適合大部分文檔掃描。注意文字原稿的掃描識(shí)別，設(shè)置掃描分辨率時(shí)千萬不要超過掃描儀的光學(xué)分辨率，不然會(huì)得不償失。下面是部分典型設(shè)置，僅供參考。
　　(1)1、2、3號(hào)字的文章段，推薦使用200dpi。
　　(2)4、小4、5號(hào)字的文章段，推薦使用300dpl
　　(3)小5、6號(hào)字的文章段，推薦使用400dpl
　　(4)7、8號(hào)字的文章段，推薦使用600dpi。

　　2. 掃描時(shí)適當(dāng)?shù)卣{(diào)整好亮度和對(duì)比度值，使掃描文件黑白分明。這對(duì)識(shí)別率的影響最為關(guān)鍵，掃描亮度和對(duì)比度值的設(shè)定以觀察掃描后的圖像中漢字的筆畫較細(xì)但又不斷開為原則。進(jìn)行識(shí)別前，先看看掃描得到的圖像中文字質(zhì)量如何，如果圖像存在黑點(diǎn)或黑斑時(shí)或文字線條很粗很黑，分不清筆畫時(shí)，說明亮度值太小了，應(yīng)該增加亮度值在試試；如果文字線條凹凸不平，有斷線甚至圖像中漢字輪廓嚴(yán)重殘缺時(shí)，說明亮度值太大了，應(yīng)減小亮度后再試試。

　　3．選好掃描軟件。選一款好的適合自己的ocr軟件是作好文字識(shí)別工作的基礎(chǔ)，一般不要使用掃描儀自帶的oem軟件，oem的ocr軟件的功能少、效果差，有的甚至沒有中文識(shí)別，經(jīng)過比較，我認(rèn)為清華紫光ocr2003專業(yè)版和尚書ocr6.0文本自動(dòng)識(shí)別輸入系統(tǒng)的識(shí)別能力與使用功能更突出一些。再選一個(gè)圖像軟件，ocr軟件不是有掃描接口嗎？為什么還找圖像軟件？第一，ocr軟件不能識(shí)別所有的掃描儀；第二，也是最關(guān)鍵的，利用圖像軟件的掃描接口掃描出來的圖像便于處理；一般選用photoshop。

　　4．如果要進(jìn)行的文本是帶有格式的，如粗體、斜體、首行縮進(jìn)等，部分ocr軟件識(shí)別不出來，會(huì)丟失格式或出現(xiàn)亂碼。如果必須掃描帶有格式的文本，事先要確保使用的識(shí)別軟件是否支持文字格式的掃描。也可以關(guān)閉樣式識(shí)別系統(tǒng)，使軟件集中注意力查找正確的字符，不再顧及字體和字體格式。

　　5．在掃描識(shí)別報(bào)紙或其他半透明文稿時(shí)，背面的文字透過紙張混淆文字字形，對(duì)識(shí)別會(huì)造成很大的障礙。遇到該類掃描，只要在掃描原稿的背面附。蓋一張黑紙，掃描時(shí)，增加掃描對(duì)比度，即可減少背面模糊字體的影響，提高識(shí)別正確率，

　　6．一般文本掃描原稿都為黑、白兩色原稿，但是在掃描設(shè)置時(shí)卻常將掃描模式設(shè)為灰度模式。特別是在原稿質(zhì)量較差時(shí)，使用灰度模式掃描，并在掃描軟件處理完后再繼續(xù)識(shí)別，這樣會(huì)得到較好的識(shí)別正確率。值得注意的是ocr識(shí)別軟件可以自己確定閥值，幾個(gè)百分點(diǎn)的閥值差異，可能就會(huì)影響識(shí)別的正常進(jìn)行。當(dāng)然，得到的圖像文件的大小會(huì)比黑白文件大很多。在進(jìn)行大批量文稿掃描時(shí)，必須對(duì)原稿進(jìn)行測(cè)試，找到最佳的閥值百分比。

　　7．遇到圖文混排的掃描原稿，首先明確使用的識(shí)別軟件是否支持自動(dòng)分析圖文這一功能。如果支持的話，在進(jìn)行這類掃描識(shí)別時(shí)，ocr軟件會(huì)自動(dòng)計(jì)算出文本的內(nèi)容、位置和先后順序。文字部分可以按照標(biāo)示順序正常識(shí)別。

　　8．手動(dòng)選取掃描區(qū)域會(huì)有更好識(shí)別效果。設(shè)置好參數(shù)后，先預(yù)覽一下，然后開始選取掃描區(qū)域。不要將要用的文章一股腦兒選在一個(gè)區(qū)域內(nèi)，因?yàn)楝F(xiàn)在的文章排版為了追求更好的視覺效果，使用圖文混排的較多，掃成一幅圖像會(huì)影響ocr識(shí)別。因此，要根據(jù)實(shí)際情況將版面分成n個(gè)區(qū)域，怎么劃分區(qū)域呢？每一區(qū)域內(nèi)的文字字體、字號(hào)最好一致，沒有圖形、圖像，每一行的寬度一致，遇到長(zhǎng)短不一，再細(xì)分，一般一次最多可掃描10個(gè)選區(qū)。根據(jù)不同情況，合理地設(shè)置識(shí)別區(qū)域的順序。不要嫌這個(gè)過程太煩，那可是提高識(shí)別率的有效手段。注意各識(shí)別區(qū)域不能有交叉，做到一切覺得完好以后再進(jìn)行識(shí)別。這樣一般的識(shí)別率會(huì)在95％以上，對(duì)于識(shí)別不正確的文字進(jìn)行校對(duì)后，就可以進(jìn)入相應(yīng)的文字處理軟件進(jìn)行所需的處理了。

　　9．在放置掃描原稿時(shí)，把掃描的文字材料一定要擺放在掃描起始線正中，以最大限度地減小由于光學(xué)透鏡導(dǎo)致的失真。同時(shí)應(yīng)保護(hù)掃描儀玻璃的干凈和不受損害。文字有一定角度的傾斜，或者是原稿文字部分為不正規(guī)排版，必須在掃描后使用旋轉(zhuǎn)工具，進(jìn)行糾正；否則ocr識(shí)別軟件會(huì)將水平筆劃當(dāng)做斜筆劃處理，識(shí)別正確率會(huì)下降很多。建議用戶盡量將掃描原稿放正，用工具旋轉(zhuǎn)糾正會(huì)降低圖像質(zhì)量，使字符識(shí)別更加困難。

　　10．先"預(yù)覽"整體版面，選定要掃描的區(qū)域，再用"放大預(yù)覽"工具，選擇一小塊進(jìn)行放大顯示到全屏幕，觀察其文字的對(duì)比度，文字的深淺濃度，據(jù)情況調(diào)整"閥值"的大小，最終要求文字清晰，不濃(文字成團(tuán))，不淡(文字?jǐn)喙P伐)，一般在"閥值"80左右為宜，最后再掃描。

　　11．用工具擦掉圖像污點(diǎn)，包括原來版面中的不需要識(shí)別的插圖、分隔線等，使文字圖像中除了文字沒有一點(diǎn)多余的東西；這可以大提高識(shí)別率并減少識(shí)別后的修改工作。

　　12．如果要掃描印刷質(zhì)量稍微差一些的文章，比如說報(bào)紙，掃描的結(jié)果將不會(huì)黑白分明，會(huì)出現(xiàn)大量的黑點(diǎn)，而且在字體的筆畫上也會(huì)出現(xiàn)粘連現(xiàn)象，這兩項(xiàng)可是漢字識(shí)別的大忌，將嚴(yán)重影響漢字識(shí)別的正確率。為獲得較好的識(shí)別結(jié)果，必須仔細(xì)進(jìn)行色調(diào)調(diào)節(jié)，反復(fù)掃描多次才能獲得比較理想的結(jié)果。另外由于報(bào)紙很薄且大部分紙質(zhì)不高，導(dǎo)致掃描儀上蓋板不能完全壓住報(bào)紙(有縫隙)，所以一般情況下報(bào)紙的掃描識(shí)別效果沒有雜志的效果好。解決辦法是在報(bào)紙上壓一至兩本16k的雜志，效果還是不錯(cuò)的。

四、ocr常見問題的解決

　　1．文字校正

　　文字校正應(yīng)該是ocr識(shí)別中最麻煩和繁瑣的工作了，要想減少工作量的話，大家可以使用readbook作為文字校正的輔助工具。我們用到的主要功能是：自動(dòng)平滑滾屏；可以對(duì)文件進(jìn)行局部編輯；具有“智能分段”功能，可以將每行都是硬回車換行的文章，去掉回車重新排列，并且不破壞原有的段落；啟動(dòng)時(shí)可自動(dòng)裝入上次正在閱讀的文章。

　　2．表格識(shí)別和編輯

　　清華紫光ocr和尚書ocr都提供了表格識(shí)別功能，尚書ocr做得比較好，能夠?qū)Ρ砀襁M(jìn)行自動(dòng)識(shí)別，但在識(shí)別時(shí)要與其它文字版塊區(qū)分劃開，才會(huì)得到整個(gè)頁(yè)面的識(shí)別。我們?cè)谟米瞎鈕cr識(shí)別表格時(shí)，往往只能識(shí)別出表頭而無表格。這是因?yàn)樽瞎鈕cr不能對(duì)表格自動(dòng)進(jìn)行劃分，我們需要進(jìn)行手動(dòng)版面分析，單獨(dú)定義出表格屬性。紫光ocr的識(shí)別屬性分為"橫排正文"、"豎排正文"及"表格"，只要將表頭單獨(dú)框起來定義為"橫排正文"，再單獨(dú)將表格框起來定義為"表格"就可以正確識(shí)別了。
　　如果我們用word等編輯軟件將識(shí)別后的表格文件直接打開時(shí)，表格可能會(huì)一團(tuán)糟，這是因?yàn)楸砀窬€是被作為字符處理的。解決這個(gè)問題最簡(jiǎn)單的方法是使用wps 2000，它可以將字符型的表格線直接轉(zhuǎn)換成可編輯的表格。如果我們需要在word里進(jìn)行編輯，只需在wps 2000里將文件另存為rtf格式就可以了。注意：請(qǐng)不要使用復(fù)制粘貼，因?yàn)閣ord是將wps 2000的表格作為圖片來處理。

　　3．段落重排

　　一些朋友在識(shí)別后文本的再處理時(shí)，大多將其復(fù)制粘貼到word中，利用word強(qiáng)大的查找替換功能來去掉多余的硬回車。其實(shí)我們完全不需要這樣麻煩，尚書ocr、漢王ocr和紫光ocr都提供了段內(nèi)去硬回車的功能。尚書、漢王使用比較簡(jiǎn)單，只要在識(shí)別后的文本存盤時(shí)，選回車設(shè)置為軟回車就行了。對(duì)于紫光ocr則需要在識(shí)別完成后，選擇文件菜單下的導(dǎo)出命令，將存為類型選為txt，段內(nèi)回車字符選為無。注意：一定不要直接存盤，否則不能自動(dòng)去掉文章的硬回車。

　　4．軟件的兼容性

　　在購(gòu)買掃描儀的時(shí)候，一般都會(huì)隨機(jī)獲贈(zèng)一款ocr識(shí)別軟件。我們也可以另選一些適合自己的ocr識(shí)別軟件，下面就介紹一下兩款主流ocr軟件的兼容性問題。

　　(1)清華紫光ocr

　　清華紫光ocr 專業(yè)版是紫光系列掃描儀隨機(jī)附贈(zèng)的ocr軟件，它具有支持的圖像格式多，識(shí)別率高，支持表格識(shí)別等特點(diǎn)，是一款不錯(cuò)的ocr軟件。但它只支持紫光系列的掃描儀，如果在其它品牌的掃描儀上使用，它會(huì)顯示出錯(cuò)信息，并拒絕工作。

　　(2)尚書ocr

　　尚書5.0這款ocr識(shí)別軟件，具有識(shí)別率高，界面簡(jiǎn)單友好的特點(diǎn)，特別適合于初學(xué)者。它適用于microtek，n－tek，scanpaq，scanport系列掃描儀，該軟件只識(shí)別自己掃描的圖像，很不方便。

　　解決方法：其實(shí)解決此類問題也很簡(jiǎn)單，我們可以使用其它圖像處理軟件來進(jìn)行掃描，只要掃描得到的圖像格式能夠被ocr軟件所支持、識(shí)別就可以了。這里介紹一款專為ocr軟件設(shè)計(jì)的圖像增強(qiáng)軟件掃描小精靈，它能有效地提高輸入圖像質(zhì)量，它提供的全自動(dòng)掃描方式、自動(dòng)存盤功能，特別適合于需要大量處理文稿的用戶。根據(jù)實(shí)驗(yàn)，掃描小精靈的tif圖像輸出格式全面兼容紫光ocr v7.5 32位專業(yè)版、漢王ocr 5.0、尚書5.0、北信ocr(wps2000手寫系統(tǒng)中攜帶的)等。此軟件大家可以到http://jwsg.yeah.net下載。

　　5．用ocr識(shí)別軟件處理傳真文件

　　利用計(jì)算機(jī)收發(fā)傳真已經(jīng)不是什么新鮮事了，有的人甚至通過一定的方法把傳真機(jī)和計(jì)算機(jī)連接起來作為掃描儀使用。利用ocr識(shí)別軟件對(duì)傳真文件進(jìn)行處理可以大方便我們的辦公工作。雖然幾乎所有的傳真軟件都支持將收到的傳真件存為tif圖像文件，但這種tif圖像文件是不能直接被ocr軟件所識(shí)別的。

　　解決方法：根據(jù)我們的實(shí)驗(yàn)，2值(bitmap、黑白)、ibm pc格式、沒有l(wèi)zw壓縮的tif圖像格式能夠被大多數(shù)的ocr軟件所識(shí)別，可用的ocr軟件有紫光ocr v7.5 32位專業(yè)版、漢王ocr 5.0、北信ocr等。所以只要將得到的傳真文件轉(zhuǎn)換成以上格式就行了。比如photoimpact5.0 (掃描儀隨機(jī)附贈(zèng)的)，利用其文件菜單下的批量轉(zhuǎn)換功能可以很方便的將批量文件轉(zhuǎn)換為ibm pc格式,沒有l(wèi)zw壓縮的tif圖像。其它圖像處理軟件如photoshop也可以。

　　對(duì)于尚書5.0我們還需用到尚書5號(hào)ocr軟件tif文件轉(zhuǎn)換器，下載地址是http://dihou.126.com。此軟件能將2值(bitmap、黑白)、ibm pc格式、沒有l(wèi)zw壓縮的tif圖像轉(zhuǎn)換為尚書5.0能識(shí)別的格式。使用很簡(jiǎn)單，按"添加文件"按鈕將文件加入待處理的文件列表，按"開始"按鈕開始處理，完成后的文件自動(dòng)加前綴dh－。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区