微軟在Microsoft Office 2003中的工具組件中有一個“Microsoft Office Document Imaging”的組件包,它可以直接執(zhí)行光學(xué)字符識別(OCR),我們可以利用Office 2003的OCR功能從文件中提取文字。
1、一般,我們安裝office 2003都會默認(rèn)安裝“Microsoft Office Document Imaging”組件,如果沒有安裝,我們也可以在“開始”—>“程序”中點擊“Microsoft Office工具”中的“Microsoft Office Document Imaging”來進(jìn)行安裝。
2、打開需要識別的文件,然后點擊“文件”—>“打印”
3、然后,在打印頁面中選擇Office 2003的虛擬打印機“Microsoft Office Document Image Write”。
4、點擊確定進(jìn)行打印,將彈出一個保存類型為“*.mdi”的保存窗口,輸入文件名進(jìn)行保存,同時勾選“查看文檔圖像”,這樣,保存完將自動打開mdi文件。
5、在打開mdi文件中點擊“工具”菜單,便可以利用菜單下面的“使用OCR識別文本”或者“將文本發(fā)送到Word”中進(jìn)行文字識別。
注: 識別完的文字可能會有一些小偏差,也會丟失原來的排版格式,所以轉(zhuǎn)換后還需要手工對其進(jìn)行排版和校對工作。
利用該方法,就可以識別pdf、caj、jpg、bmp、tif等各種各樣的文件了??梢哉f,只要文件可以打印,便可以進(jìn)行文字識別;也可以說,只要在屏幕上看得到的字都可以進(jìn)行識別(先截圖成圖片格式,再進(jìn)行識別)。
聯(lián)系客服