下面利用這一方法來提取加密pdf文檔中的文字:
運(yùn)行Acrobat Reader,打開要提取文字的pdf文檔,單擊菜單“文件→打印”,在出現(xiàn)的“打印”窗口中,打印機(jī)名稱一定要選擇“Microsoft Office Document Imaging Writer”,單擊后面的“屬性”按鈕,可以設(shè)置頁(yè)面大小、輸出文件格式(包括mdi和tiff兩種格式,默認(rèn)為msi)及默認(rèn)保存位置。設(shè)置好“打印”窗口中的其他相關(guān)參數(shù)后,單擊“確定”按鈕,出現(xiàn)“另存為”窗口,在此即可把頁(yè)面“打印”成一個(gè)mdi文件,同時(shí)系統(tǒng)會(huì)自動(dòng)啟動(dòng)“Microsoft Office Document Imaging”并顯示出剛剛保存的mdi文件。
在Microsoft Office Document Imaging的窗口中,單擊菜單“工具→將文本發(fā)送到Word”,在彈出的窗口中單擊“確定”,系統(tǒng)會(huì)自動(dòng)對(duì)整個(gè)頁(yè)面進(jìn)行OCR識(shí)別,識(shí)別完畢之后,會(huì)自動(dòng)啟動(dòng)Word,并把識(shí)別出來的文字顯示在Word文檔中,識(shí)別效果非常不錯(cuò)。如果只需要頁(yè)面中的部分文字,可單擊標(biāo)準(zhǔn)工具欄中的“使用OCR識(shí)別文本”,先進(jìn)行文字識(shí)別,然后用鼠標(biāo)框選出需要的部分,再執(zhí)行“將文本發(fā)送到Word”,選中“當(dāng)前選中范圍”即可。(圖6)
在Word中適當(dāng)對(duì)文字及格式進(jìn)行修改,即可將其保存成doc文檔。到此pdf文檔中的文字已經(jīng)提取到了Word中了。
提示:如果上面“打印”成的格式是tif,則需要手動(dòng)從“開始”菜單“Microsoft Office 工具”中啟動(dòng)Microsoft Office Document Imaging,然后再“打開”tif文件,同樣可以把文字識(shí)別到Word中。
聯(lián)系客服