怎么把JPG文件上的文字轉(zhuǎn)換成文本文件上的文字？

花瓣一枚

2009-01-24 23:22:13 發(fā)布

2個回答

回答

shenyihao | 2009-01-24 23:22:33
有0人認為這個回答不錯 | 有0人認為這個回答沒有幫助
offiice2003 有這個功能！
自帶了Document Imaging 安裝office的時候選上
默認是不安裝的！

還有很多OCR軟件

我使用Document Imaging和尚書七號感覺非常不錯！推薦一下

如果公式字母中文混排任何軟件都識別不全的！

用OCR就可以了．
比如Office 2003中也提供了文字識別服務(wù)，結(jié)合那個Image writer可以很方便將PDF轉(zhuǎn)成WORD。

第一種方法：用SnagIt工具進行文字提取。

首先使用SnagIt的文字捕捉功能將文字提取出來。SnagIt當(dāng)前版本為7.02，大小為8903KB，下載地址可以在http://www.skycn.com/soft/2290.html 找到，漢化補丁可以在http://www.skycn.com/soft/2291.html 找到。啟動SnagIt，選擇菜單“輸入/區(qū)域”，選擇菜單“工具/文字捕獲”，然后我們打開要捕捉的文件窗口，按下捕捉快捷鍵，選定捕捉區(qū)域即可捕捉到文字。
添加評論(0)

koood | 2009-01-24 23:23:01
有0人認為這個回答不錯 | 有0人認為這個回答沒有幫助
offiice2003 有這個功能！
自帶了Document Imaging 安裝office的時候選上
默認是不安裝的！

還有很多OCR軟件

我使用Document Imaging和尚書七號感覺非常不錯！推薦一下

如果公式字母中文混排任何軟件都識別不全的！

用OCR就可以了．
比如Office 2003中也提供了文字識別服務(wù)，結(jié)合那個Image writer可以很方便將PDF轉(zhuǎn)成WORD。

第一種方法：用SnagIt工具進行文字提取。

首先使用SnagIt的文字捕捉功能將文字提取出來。SnagIt當(dāng)前版本為7.02，大小為8903KB，下載地址可以在http://www.skycn.com/soft/2290.html 找到，漢化補丁可以在http://www.skycn.com/soft/2291.html 找到。啟動SnagIt，選擇菜單“輸入/區(qū)域”，選擇菜單“工具/文字捕獲”，然后我們打開要捕捉的文件窗口，按下捕捉快捷鍵，選定捕捉區(qū)域即可捕捉到文字。

接著用相應(yīng)工具重排文字。此時我們發(fā)現(xiàn)提取的文字可能會有很多空格或段落錯亂等現(xiàn)象，而且字號、字體等不合自己的心意。這時我們可以用熟悉的WPS或Word軟件進行重新編排。我們以WPSOffice2003為例看看如何對付提取后文章的編排。

用WPSOffice2003打開提取文章；然后選擇“工具”菜單下的“文字”/“段落重排”，這時你會看到提取文章重新進行排版；接下來選擇“工具”菜單下的“文字”/“刪除段首空格”命令，使得文章的每段參差不齊的行首空格被刪除；再選擇“工具”菜單下的“文字”/“增加段首空格”，文章變?yōu)檎５臅鴮懜袷?；提取文章一般都留有空段，為刪除這些空段，繼續(xù)選擇“工具”菜單下的“文字”/“刪除空段”命令，這時文章完全變?yōu)槲覀兯男问?；用你熟悉的界面任意編輯文章吧?

第二種方法：用屏幕截圖然后讓OCR軟件識別。

打開帶有文字的圖片或電子書籍，翻到你希望提取的頁面，點擊鍵盤上的打印屏幕鍵（PrintScreen）進行屏幕捕獲；打開Windows自帶的畫圖工具，將剛才捕獲的屏幕截圖，粘貼進去，保存為一個.bmp文件；接著打開剛才保存的文件，在編輯器中進行修正，根據(jù)你所要提取的文字進行裁剪，盡量去除不要的部分；最后啟動OCR軟件，在OCR中打開剛才保存的修改文件，進行文字識別，然后可隨心所欲進行編輯。

你如果想把字改到word里面的話，然后修改的話，這個必須有一個軟件才可以的。僅僅word是不可以的。

具體的我給你說：
在掃描儀發(fā)展史上，文字識別軟件（OCR）的出現(xiàn)，實現(xiàn)了將印刷文字掃描得到的圖片轉(zhuǎn)化為文本文字的功能，提供了一種全新的文字輸入手段，大大提高了用戶工作的效率，同時也為掃描儀的應(yīng)用帶來了進步。從此，掃描儀不再僅僅是圖形、圖像的輸入工具，它真正的成為了電子化辦公的有機組成部分。隨之而來的是，掃描儀在金融、證券、政府等領(lǐng)域普遍應(yīng)用，為人們擺脫紙制文檔束縛，真正實現(xiàn)無紙化辦公鋪平了道路。
目前在中國市場上銷售的每一款Microtek掃描儀產(chǎn)品，都附贈了“尚書六號”文字識別軟件。在頗具美名的“尚書五號”文字識別軟件基礎(chǔ)上，“尚書六號”又有了許多新的突破。它一改以前文字識別軟件只能對“黑白二色”圖像進行識別的限制，可以對彩色、灰度圖像文件直接進行識別；尚書六號支持更多的掃描文件格式，例如TIFF、BMP和JPG格式；與此同時，尚書六號完善了表格識別功能，各式各樣的表格幾乎都可以原封不動的由圖片格式轉(zhuǎn)變?yōu)榭梢宰杂删庉嫷奈淖指袷?。最值得一提的是，“尚書六號”還加入了人性化設(shè)計，在軟件安裝完畢后，程序組圖標(biāo)里面會自動出現(xiàn)“尚書六號說明”，借助這本用戶手冊，即使是初學(xué)者也可以迅速掌握軟件的使用。
下面結(jié)合Microtek掃描儀的驅(qū)動軟件ScanWizard 5，詳細介紹如何配合尚書六號OCR軟件做好文字識別工作：
Step1：掃描圖像文件
建議首先點擊桌面上ScanWizard 5軟件的圖標(biāo)，進入Microtek掃描儀驅(qū)動軟件的界面，直接進行掃描工作，而不需要啟動其他的掃描程序或圖像編輯程序，這樣可以大大加快掃描進程。同時，注意將ScanWizard 5軟件切換到高級工作模式（如圖1所示），以便于用戶檢查掃描儀工作時的分辨率。在文字識別時，推薦使用的掃描分辨率設(shè)定在300ppi，色彩模式可以選擇“RGB彩色”或者“灰階”，選擇“掃描到”的文件格式是TIF或者JPG兩者都可以，然后將掃描得到的文件保存在用戶確定的目錄下面。
Step2：打開尚書六號讀取掃描好的圖像文件
Step3：被識別圖片的預(yù)處理
被識別圖片的預(yù)處理工作主要包括“傾斜校正”和“設(shè)定正確識別區(qū)域”兩個步驟。在進行“傾斜校正”時，可按下工具欄的最下面的一個“圖像傾斜校正”工具按鈕。系統(tǒng)會自動彈出一個對話框，提示需要校正的角度，此時按下“是”按鈕，系統(tǒng)就給予圖片做水平的傾斜校正。在此需要特別注意，“自動傾斜校正功能”只能對原稿做±2.8度的傾角的校正，如果原稿的傾斜角度大于2.8度，系統(tǒng)會建議用戶重新掃描稿件，以提高識別率。
如何“正確設(shè)定識別區(qū)域”，也是一個值得用戶注意的地方：如“海爾”一文，實際是分成兩個欄目進行閱讀的，所以在設(shè)定識別區(qū)域的時候，注意需要將這個兩個欄目分別圈定，也就是設(shè)定兩個識別區(qū)域（如圖2所示）。同時，對于一些文字稿件，如果在中間插有圖片的時候，建議采用繞開的方式，對所環(huán)繞的文字分別進行識別區(qū)域的設(shè)定。此外，對于表格類的圖片，為了將標(biāo)題欄也能識別進去，建議將表格部分整個框選，同時標(biāo)題作為一個單獨的框選區(qū)域。
Step4：開始進行識別
在開始“識別”的時候，應(yīng)注意識別軟件的設(shè)定值是否正確，尤其注意識別字集的選擇問題：如果要識別簡體中文，請選擇“簡體字集”；如果要識別繁體中文，請選擇“繁體字集”；在選擇“純英文字集”時，可以大幅提升英文字母的識別率。同時，“簡體字集”和“繁體字集”也具有較強的識別英文的能力。
Step5：識別校對完成后，進行保存
在“尚書六號”文字識別軟件中，存盤格式（也就是文件保存的類型）有四種，分別是：Word、Text、CSV、HTML。直接用Word格式保存時，可以用微軟的Word軟件打開，它可以相對比較完整的保存排版格式；但建議用戶一般可選擇Text（純文本）格式保存，因為這種格式可以用幾乎所有文檔編輯器打開；如果用戶進行表格識別，識別結(jié)果可以選擇保存為CSV格式，這樣用EXCEL就能夠直接打開；而HTML格式是針對網(wǎng)頁設(shè)計使用的，用IE等網(wǎng)絡(luò)瀏覽器或網(wǎng)頁編輯器可以打開。
參考：http://www.jinhuatong.com/Article/jiaoxuezhongxin/jisuanjijichu1/jishuzhishi/200507/273.htm

1。尚書六號表格文字識別系統(tǒng)
尚書六號表格文字識別系統(tǒng)由北京漢王科技公司授權(quán)上海中晶電腦公司獨家使用，軟件版權(quán)屬于北京漢王科技公司。
尚書六號有如下新特點：
1、識別字集加大，簡體識別能夠識別全部國標(biāo)二級漢字，繁體識別能夠識別簡體二級漢字、臺灣繁體漢字和香港繁體漢字。
2、識別字體種類增多，簡體漢字和繁體漢字均能識別宋體、仿宋體、楷體、黑體、圓體、隸書、隸變、魏碑、行楷等字體。英文字體增加到100多種。
3、中英文混排的識別率大大提高。
4、提供彩色、灰度掃描功能，方便用戶使用。
這個由MicroTek主推的OCR軟件，總體來說，還是不錯的。識別能力比較高，但是對表格的處理屬于BABY的階段，只能直接輸出為TXT文本。適合一般家庭使用。
btcool.org/down/get.asp?id=2391&type=1&url=1

2。漢王文本王
漢王文本王是針對機關(guān)單位、企業(yè)及有文字錄入需求的個人用戶，在日常的工作中，快速的對書刊、報紙、公文、檔案、報表、打印稿等印刷資料內(nèi)容進行錄入的應(yīng)用需求而推出的。本產(chǎn)品采用漢王科技頂尖的OCR文字識別核心，結(jié)合特定文本掃描技術(shù)，能夠識別、錄入百余種印刷字體和各種中英繁表圖混排格式的文本，并具備朗讀校對、翻譯功能，是理想的表格、文字、圖像錄入系統(tǒng)。
漢王文本王突出的優(yōu)勢
批量輸入高速準(zhǔn)確
*可連續(xù)進行批量掃描并識別1000頁稿件。
*識別速度快，每分鐘高達6000字。
*全自動識別宋、仿宋、楷、黑、圓、魏碑、隸書、行楷等百余種中文簡繁，英文、數(shù)字、表格、圖片混排的稿件。
*識別準(zhǔn)確率高。
一鍵掃入，WORD輸出，真正實現(xiàn)與Word無縫連接。
圖文表格輕松輸入
不僅高效識別圖片、文字，也可全面識別表格，所需錄入內(nèi)容瞬間即可轉(zhuǎn)化成為電子表格。

漢王文本王，是我用過最牛B的OCR軟件，識別率很高，特別對表格的處理。能直接導(dǎo)入到DOC（WORD文檔）中，是一個直正的表格，很漂亮的，還能直接導(dǎo)入到XLS（EXCEL文檔）中，直接幫你分配好表格中的每一格每一欄。強烈推薦啊。
2.5的版本是2.3升級的。支持國貨啊。還有一個叫文豪5300

202.110.201.216/soft/行業(yè)軟件/辦公軟件/龍卷風(fēng)OCR文字識別大比拼V1.0.ISO
包括：
清華TH-OCR2000千禧專業(yè)版
漢王文本王文豪5300
蒙恬認識王專業(yè)版3.0
ABBYY FineReader6.0專業(yè)版
丹青中英文文件辨識系統(tǒng)V4.0
尚書六號表格文字識別系統(tǒng)
清華紫光文通手寫識別系統(tǒng)
XEROX TextBridge PRO9.0零售版

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

怎么把JPG文件上的文字轉(zhuǎn)換成文本文件上的文字？

2個回答

怎么把JPG文件上的文字轉(zhuǎn)換成文本文件上的文字？