怎么把JPG文件上的文字轉(zhuǎn)換成文本文件上的文字?
2個回答
- shenyihao | 2009-01-24 23:22:33
- 有0人認為這個回答不錯 | 有0人認為這個回答沒有幫助
- offiice2003 有這個功能!
自帶了Document Imaging 安裝office的時候選上
默認是不安裝的!
還有很多OCR軟件
我使用Document Imaging和尚書七號感覺非常不錯! 推薦一下
如果 公式 字母 中文 混排 任何軟件都識別不全的!
用OCR就可以了.
比如Office 2003中也提供了文字識別服務(wù),結(jié)合那個Image writer可以很方便將PDF轉(zhuǎn)成WORD。
第一種方法:用SnagIt工具進行文字提取。
首先使用SnagIt的文字捕捉功能將文字提取出來。SnagIt當(dāng)前版本為7.02,大小為8903KB,下載地址可以在http://www.skycn.com/soft/2290.html 找到,漢化補丁可以在http://www.skycn.com/soft/2291.html 找到。啟動SnagIt,選擇菜單“輸入/區(qū)域”,選擇菜單“工具/文字捕獲”,然后我們打開要捕捉的文件窗口,按下捕捉快捷鍵,選定捕捉區(qū)域即可捕捉到文字。
- koood | 2009-01-24 23:23:01
- 有0人認為這個回答不錯 | 有0人認為這個回答沒有幫助
- offiice2003 有這個功能!
自帶了Document Imaging 安裝office的時候選上
默認是不安裝的!
還有很多OCR軟件
我使用Document Imaging和尚書七號感覺非常不錯! 推薦一下
如果 公式 字母 中文 混排 任何軟件都識別不全的!
用OCR就可以了.
比如Office 2003中也提供了文字識別服務(wù),結(jié)合那個Image writer可以很方便將PDF轉(zhuǎn)成WORD。
第一種方法:用SnagIt工具進行文字提取。
首先使用SnagIt的文字捕捉功能將文字提取出來。SnagIt當(dāng)前版本為7.02,大小為8903KB,下載地址可以在http://www.skycn.com/soft/2290.html 找到,漢化補丁可以在http://www.skycn.com/soft/2291.html 找到。啟動SnagIt,選擇菜單“輸入/區(qū)域”,選擇菜單“工具/文字捕獲”,然后我們打開要捕捉的文件窗口,按下捕捉快捷鍵,選定捕捉區(qū)域即可捕捉到文字。
接著用相應(yīng)工具重排文字。此時我們發(fā)現(xiàn)提取的文字可能會有很多空格或段落錯亂等現(xiàn)象,而且字號、字體等不合自己的心意。這時我們可以用熟悉的WPS或Word軟件進行重新編排。我們以WPSOffice2003為例看看如何對付提取后文章的編排。
用WPSOffice2003打開提取文章;然后選擇“工具”菜單下的“文字”/“段落重排”,這時你會看到提取文章重新進行排版;接下來選擇“工具”菜單下的“文字”/“刪除段首空格”命令,使得文章的每段參差不齊的行首空格被刪除;再選擇“工具”菜單下的“文字”/“增加段首空格”,文章變?yōu)檎5臅鴮懜袷?;提取文章一般都留有空段,為刪除這些空段,繼續(xù)選擇“工具”菜單下的“文字”/“刪除空段”命令,這時文章完全變?yōu)槲覀兯男问?;用你熟悉的界面任意編輯文章吧?
第二種方法:用屏幕截圖然后讓OCR軟件識別。
打開帶有文字的圖片或電子書籍,翻到你希望提取的頁面,點擊鍵盤上的打印屏幕鍵(PrintScreen)進行屏幕捕獲;打開Windows自帶的畫圖工具,將剛才捕獲的屏幕截圖,粘貼進去,保存為一個.bmp文件;接著打開剛才保存的文件,在編輯器中進行修正,根據(jù)你所要提取的文字進行裁剪,盡量去除不要的部分;最后啟動OCR軟件,在OCR中打開剛才保存的修改文件,進行文字識別,然后可隨心所欲進行編輯。
你如果想把字改到word里面的話,然后修改的話,這個必須有一個軟件才可以的。僅僅word是不可以的。
具體的我給你說:
在掃描儀發(fā)展史上,文字識別軟件(OCR)的出現(xiàn),實現(xiàn)了將印刷文字掃描得到的圖片轉(zhuǎn)化為文本文字的功能,提供了一種全新的文字輸入手段,大大提高了用戶工作的效率,同時也為掃描儀的應(yīng)用帶來了進步。從此,掃描儀不再僅僅是圖形、圖像的輸入工具,它真正的成為了電子化辦公的有機組成部分。隨之而來的是,掃描儀在金融、證券、政府等領(lǐng)域普遍應(yīng)用,為人們擺脫紙制文檔束縛,真正實現(xiàn)無紙化辦公鋪平了道路。
目前在中國市場上銷售的每一款Microtek掃描儀產(chǎn)品,都附贈了“尚書六號”文字識別軟件。在頗具美名的“尚書五號”文字識別軟件基礎(chǔ)上,“尚書六號”又有了許多新的突破。它一改以前文字識別軟件只能對“黑白二色”圖像進行識別的限制,可以對彩色、灰度圖像文件直接進行識別;尚書六號支持更多的掃描文件格式,例如TIFF、BMP和JPG格式;與此同時,尚書六號完善了表格識別功能,各式各樣的表格幾乎都可以原封不動的由圖片格式轉(zhuǎn)變?yōu)榭梢宰杂删庉嫷奈淖指袷?。最值得一提的是,“尚書六號”還加入了人性化設(shè)計,在軟件安裝完畢后,程序組圖標(biāo)里面會自動出現(xiàn)“尚書六號說明”,借助這本用戶手冊,即使是初學(xué)者也可以迅速掌握軟件的使用。
下面結(jié)合Microtek掃描儀的驅(qū)動軟件ScanWizard 5,詳細介紹如何配合尚書六號OCR軟件做好文字識別工作:
Step1:掃描圖像文件
建議首先點擊桌面上ScanWizard 5軟件的圖標(biāo),進入Microtek掃描儀驅(qū)動軟件的界面,直接進行掃描工作,而不需要啟動其他的掃描程序或圖像編輯程序,這樣可以大大加快掃描進程。同時,注意將ScanWizard 5軟件切換到高級工作模式(如圖1所示),以便于用戶檢查掃描儀工作時的分辨率。在文字識別時,推薦使用的掃描分辨率設(shè)定在300ppi,色彩模式可以選擇“RGB彩色”或者“灰階”,選擇“掃描到”的文件格式是TIF或者JPG兩者都可以,然后將掃描得到的文件保存在用戶確定的目錄下面。
Step2:打開尚書六號讀取掃描好的圖像文件
Step3:被識別圖片的預(yù)處理
被識別圖片的預(yù)處理工作主要包括“傾斜校正”和“設(shè)定正確識別區(qū)域”兩個步驟。在進行“傾斜校正”時,可按下工具欄的最下面的一個“圖像傾斜校正”工具按鈕。系統(tǒng)會自動彈出一個對話框,提示需要校正的角度,此時按下“是”按鈕,系統(tǒng)就給予圖片做水平的傾斜校正。在此需要特別注意,“自動傾斜校正功能”只能對原稿做±2.8度的傾角的校正,如果原稿的傾斜角度大于2.8度,系統(tǒng)會建議用戶重新掃描稿件,以提高識別率。
如何“正確設(shè)定識別區(qū)域”,也是一個值得用戶注意的地方:如“海爾”一文,實際是分成兩個欄目進行閱讀的,所以在設(shè)定識別區(qū)域的時候,注意需要將這個兩個欄目分別圈定,也就是設(shè)定兩個識別區(qū)域(如圖2所示)。同時,對于一些文字稿件,如果在中間插有圖片的時候,建議采用繞開的方式,對所環(huán)繞的文字分別進行識別區(qū)域的設(shè)定。此外,對于表格類的圖片,為了將標(biāo)題欄也能識別進去,建議將表格部分整個框選,同時標(biāo)題作為一個單獨的框選區(qū)域。
Step4:開始進行識別
在開始“識別”的時候,應(yīng)注意識別軟件的設(shè)定值是否正確,尤其注意識別字集的選擇問題:如果要識別簡體中文,請選擇“簡體字集”;如果要識別繁體中文,請選擇“繁體字集”;在選擇“純英文字集”時,可以大幅提升英文字母的識別率。同時,“簡體字集”和“繁體字集”也具有較強的識別英文的能力。
Step5:識別校對完成后,進行保存
在“尚書六號”文字識別軟件中,存盤格式(也就是文件保存的類型)有四種,分別是:Word、Text、CSV、HTML。直接用Word格式保存時,可以用微軟的Word軟件打開,它可以相對比較完整的保存排版格式;但建議用戶一般可選擇Text(純文本)格式保存,因為這種格式可以用幾乎所有文檔編輯器打開;如果用戶進行表格識別,識別結(jié)果可以選擇保存為CSV格式,這樣用EXCEL就能夠直接打開;而HTML格式是針對網(wǎng)頁設(shè)計使用的,用IE等網(wǎng)絡(luò)瀏覽器或網(wǎng)頁編輯器可以打開。
參考:http://www.jinhuatong.com/Article/jiaoxuezhongxin/jisuanjijichu1/jishuzhishi/200507/273.htm
1。尚書六號表格文字識別系統(tǒng)
尚書六號表格文字識別系統(tǒng)由北京漢王科技公司授權(quán)上海中晶電腦公司獨家使用,軟件版權(quán)屬于北京漢王科技公司。
尚書六號有如下新特點:
1、識別字集加大,簡體識別能夠識別全部國標(biāo)二級漢字,繁體識別能夠識別簡體二級漢字、臺灣繁體漢字和香港繁體漢字。
2、識別字體種類增多,簡體漢字和繁體漢字均能識別宋體、仿宋體、楷體、黑體、圓體、隸書、隸變、魏碑、行楷等字體。英文字體增加到100多種。
3、中英文混排的識別率大大提高。
4、提供彩色、灰度掃描功能,方便用戶使用。
這個由MicroTek主推的OCR軟件,總體來說,還是不錯的。識別能力比較高,但是對表格的處理屬于BABY的階段,只能直接輸出為TXT文本。適合一般家庭使用。
btcool.org/down/get.asp?id=2391&type=1&url=1
2。漢王文本王
漢王文本王是針對機關(guān)單位、企業(yè)及有文字錄入需求的個人用戶,在日常的工作中,快速的對書刊、報紙、公文、檔案、報表、打印稿等印刷資料內(nèi)容進行錄入的應(yīng)用需求而推出的。本產(chǎn)品采用漢王科技頂尖的OCR文字識別核心,結(jié)合特定文本掃描技術(shù),能夠識別、錄入百余種印刷字體和各種中英繁表圖混排格式的文本,并具備朗讀校對、翻譯功能,是理想的表格、文字、圖像錄入系統(tǒng)。
漢王文本王突出的優(yōu)勢
批量輸入 高速準(zhǔn)確
*可連續(xù)進行批量掃描并識別1000頁稿件。
*識別速度快,每分鐘高達6000字。
*全自動識別宋、仿宋、楷、黑、圓、魏碑、隸書、行楷等百余種中文簡繁,英文、數(shù)字、表格、圖片混排的稿件。
*識別準(zhǔn)確率高。
一鍵掃入,WORD輸出,真正實現(xiàn)與Word無縫連接。
圖文表格 輕松輸入
不僅高效識別圖片、文字,也可全面識別表格,所需錄入內(nèi)容瞬間即可轉(zhuǎn)化成為電子表格。
漢王文本王,是我用過最牛B的OCR軟件,識別率很高,特別對表格的處理。能直接導(dǎo)入到DOC(WORD文檔)中,是一個直正的表格,很漂亮的,還能直接導(dǎo)入到XLS(EXCEL文檔)中,直接幫你分配好表格中的每一格每一欄。強烈推薦啊。
2.5的版本是2.3升級的。支持國貨啊。還有一個叫文豪5300
202.110.201.216/soft/行業(yè)軟件/辦公軟件/龍卷風(fēng)OCR文字識別大比拼V1.0.ISO
包括:
清華TH-OCR2000千禧專業(yè)版
漢王文本王文豪5300
蒙恬認識王專業(yè)版3.0
ABBYY FineReader6.0專業(yè)版
丹青中英文文件辨識系統(tǒng)V4.0
尚書六號表格文字識別系統(tǒng)
清華紫光文通手寫識別系統(tǒng)
XEROX TextBridge PRO9.0零售版