九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
CAJ文件的識(shí)別
 

    很多科技文獻(xiàn),論文,都是用CAJViewer7.0稱為“電子閱讀器”的一個(gè)程序來(lái)閱讀的。但CAJ文件像PDF文件一樣,是些類似圖片格式的文本。這些圖片格式的文本轉(zhuǎn)換成可編輯的真正文本是有點(diǎn)麻煩的。僅僅用“拷貝,粘貼”的辦法,是不行的。需要進(jìn)行一個(gè)格式的轉(zhuǎn)換。

    方法1:需要安裝一個(gè)軟件:Office2003,完整版大概680多兆。用CajViewer打開所要轉(zhuǎn)的文件,工具欄里選“文件”——“打印”。
一般機(jī)器里安裝了Office2003之后,會(huì)隨著安裝一個(gè)虛擬打印機(jī)MicrosoftOfficeDocumentImaging,就選擇打印到這個(gè)虛擬打印機(jī)上。
先選打印“全部”,然后點(diǎn)“確定”。最后選擇文件保存路徑,但這時(shí),保存的這個(gè)文件是MDI格式的,打印完后MicrosoftOfficeDocumentImaging會(huì)自動(dòng)打開你剛才保存的文件。然后在工具欄里選擇“工具”——“將文本發(fā)送到Word”這樣就可以把CAJ格式的文件轉(zhuǎn)變稱為WORD格式了。

    方法2:從CAJ等文件中提取全文本的方法
現(xiàn)在網(wǎng)上的許多資料都是以CAJ、PDF等文件格式提供的,其中的文本不能被直接編輯。網(wǎng)上提供了許多處理這種情況的軟件,但是它們不是效率低,就是只能提取其中部分文本。本文所述利用微軟提供的OCR識(shí)別技術(shù)從CAJ、PDF等文件中提取全部文本的方法,簡(jiǎn)便快捷,效率很高。從不同格式的文件中提取文本前需要做好以下準(zhǔn)備工作,安裝CAJViewer5.5瀏覽器軟件和acrobat5專業(yè)版瀏覽器軟件安裝Office2003,并完全安裝Office工具M(jìn)icrosoftOfficeDocumentImaging,然后在打印機(jī)里面會(huì)增加MicrosoftOfficeDocumentImageWriter打印機(jī)

。MicrosoftOfficeDocumentImage可以非常準(zhǔn)確的全文件識(shí)別轉(zhuǎn)化中文、英文、表格。
  一、CAJ文件的識(shí)別
 ?。ㄒ唬┦紫龋瑥木W(wǎng)上下載CAJ格式的資料文件保存到本地硬盤上。
  (二)然后,啟動(dòng)CAJViewer瀏覽器程序,并在該程序中打開剛才保存的CAJ格式的文件。瀏覽文件到最后一頁(yè)后,不要關(guān)閉CAJ瀏覽器程序。
 ?。ㄈ┰贑AJ瀏覽器程序窗口中,選擇“文件”→“打印”,并選擇打印機(jī)為MicrosoftOfficeDocumentImageWriter打印機(jī),勾選打印到文件選項(xiàng)和確定打印頁(yè)數(shù)。
 ?。ㄋ模┍4娲蛴∥募?.prn)到適當(dāng)位置。等待打印完成后,MicrosoftOfficeDocumentImage自動(dòng)打開剛才保存的打印文件。
 ?。ㄎ澹┰贛icrosoftOfficeDocumentImage窗口中,選擇“頁(yè)面”菜單中的“選擇所有頁(yè)面”菜單項(xiàng),然后選擇“工具”菜單中的“使用OCR識(shí)別文本”提取文本。
 ?。┻x擇“工具”下的“將文本發(fā)送到word”,最后將把整個(gè)CAJ文件識(shí)別輸出到word文件中。

    PDF文件的識(shí)別
 ?。ㄒ唬┮晕谋拘问奖4娴腜DF文件,用acrobat5專業(yè)版,識(shí)別整個(gè)文件。直接打開從網(wǎng)上下載的PDF格式文件另存為RTF文件,或者選擇工具欄上的文字選擇按鈕,然后選擇文字區(qū)域,然后復(fù)制到Word中即可。
 ?。ǘ┮詧D片形式保存的PDF文件,將PDF文件打印到MicrosoftOfficeDocumentImageWriter打印機(jī),選擇打印形成的文件的保存位置,然后會(huì)自動(dòng)形成一個(gè)MDI文件,并且自動(dòng)用MicrosoftOfficeDocumentImage打開此文件,然后在MicrosoftOfficeDocumentImage中選擇“工具”菜單中的“使用OCR識(shí)別文本”,識(shí)別完成后,在選擇“工具”下的,“將文本發(fā)送到word”,最后將把整個(gè)PDF文件識(shí)別輸出到word文件中。
  (三)加密的PDF文件先下載解密軟件,解密后在參照上述步驟1),2)進(jìn)行。
  (四)繁體PDF文件用上述步驟2)的方法識(shí)別到word后,用word中的“工具”→“語(yǔ)言”→“中文繁簡(jiǎn)轉(zhuǎn)換”

超星文件的識(shí)別
?。ㄒ唬┤募R(shí)別打印到MicrosoftOfficeDocumentImageWriter打印機(jī),然后按上述PDF文件的識(shí)別步驟中第二點(diǎn)操作,要注意的是,超星打印功能有點(diǎn)區(qū)別,因?yàn)槌鞘悄夸浐腿姆珠_的,所以打印時(shí),需要分別把目錄和正文識(shí)別到Word中,再合并到一起。打印時(shí)要填入打印頁(yè)碼從1到最后一頁(yè),不要選擇打印全部。在打印選項(xiàng)中,要將頁(yè)面比例設(shè)成真實(shí)大小,而不是整寬。注意識(shí)別速度比其他格式要慢很多,請(qǐng)保持耐心。一般一本200多頁(yè)的書,識(shí)別需要幾分鐘的時(shí)間。
?。ǘ┏俏募R(shí)別相對(duì)比較麻煩一些,如果還有問題,可以先把超星打印成完整的PDF文件,然后再用上述識(shí)別PDF文件的方法轉(zhuǎn)成Word。
  四、后記
  經(jīng)過(guò)試驗(yàn),發(fā)現(xiàn)MicrosoftOfficeDocumentImage存在一些不穩(wěn)定的問題,如在用CAJ打印到MicrosoftOfficeDocumentImageWriter時(shí),發(fā)現(xiàn)用CAJ5.5版本比較快,而CAJ5.0有時(shí)出現(xiàn)假死機(jī)。頁(yè)面顯示大時(shí),轉(zhuǎn)化的識(shí)別率較高。如果頁(yè)數(shù)多的文件,包括超星,可以分多次轉(zhuǎn)化。由于虛擬打印到MicrosoftOfficeDocumentImageWriter比較慢,并且形成的虛擬文件很大,1本200多頁(yè)的書大約是60M,因此會(huì)嚴(yán)重影響機(jī)器的運(yùn)行速度、C盤和內(nèi)存空間。建議配置好的機(jī)器一次轉(zhuǎn)化不要超過(guò)200頁(yè),配置差的不要超過(guò)100頁(yè),同時(shí)打印時(shí)在任務(wù)欄中會(huì)出現(xiàn)打印機(jī)圖標(biāo),可以雙擊,看到打印任務(wù)的進(jìn)度,避免誤以為死機(jī)。轉(zhuǎn)化完成后請(qǐng)刪除c:\windows\temp目錄下的虛擬打印文件,否則C盤很快會(huì)被用光。caj從5.5版本可以進(jìn)行文字識(shí)別功能,我們的pdf文件用CAJ打開,然后用里面的文字識(shí)別功能即可得到我們需要的文字了,特別有優(yōu)勢(shì)的一個(gè)地方在于:即便是圖片格式的PDF文件也能識(shí)別;另外一個(gè)功能就是:有時(shí)候pdf設(shè)置了密碼保護(hù),不允許打印,我們可以用CAJ打開然后再打印,大家不妨試試,這也是CAJ文檔的兩個(gè)用途吧。
(caj,PDF,超星,維普............)中文字提取,如大家常用的caj,超星,維普............只需要兩個(gè)軟件VIRTUALPRINTER;尚書六號(hào),先裝一個(gè)VIRTUALPRINTER(虛擬打印機(jī))打成OCR軟件(我用的是尚書六號(hào))可識(shí)別的圖像格式(如jpg)之后,就可以提取其中的文字了。這個(gè)方法尤其對(duì)于有些caj(轉(zhuǎn)成PDF什么也看不清楚的caj)特別有效。從不同格式的文件中提取文本前需要做好以下準(zhǔn)備工作,安裝CAJViewer5.5瀏覽器軟件和acrobat5專業(yè)版瀏覽器軟件安裝Office2003,并完全安裝Office工具M(jìn)icrosoftOfficeDocumentImaging,然后在打印機(jī)里面會(huì)增加MicrosoftOfficeDocumentImageWriter打印機(jī)。MicrosoftOfficeDocumentImage可以非常準(zhǔn)確的全文件識(shí)別轉(zhuǎn)化中文、英文、表格。

使用MicrosoftOfficeDocumentImageWriter虛擬打印機(jī)
1、前提需要完全安裝Office2003-Office工具-MicrosoftOfficeDocumentImaging,一般默認(rèn)的office安裝沒有OCR識(shí)別文本功能。
完全安裝方法:在添加刪除程序里,選擇office2003,點(diǎn)擊更改,出現(xiàn)了office2003安裝修改界面,選擇-更改刪除-下一步-高級(jí)選項(xiàng)-office工具里找到MicrosoftOfficeDocumentImaging選擇從本機(jī)安裝(默認(rèn)的是“第一次使用時(shí)安裝”)一路下去就ok了。接下來(lái)就可以體驗(yàn)office的文字識(shí)別功能了。

2、以最麻煩的超星文件為例。(建議安裝ssreader3.8版本,因?yàn)?.9版對(duì)虛擬打印有限制)
在3.8版本中使用虛擬打也需要一點(diǎn)前期工作,點(diǎn)擊控制面板-打印機(jī),列表中看到MicrosoftOfficeDocumentImageWriter,重命名(避免一些writer等字眼,防止超星的禁止功能),命名數(shù)字即可,比如2。打開下載的超星文件,由于超星對(duì)書目錄和正文分別記錄頁(yè)數(shù),所以,如果要全部轉(zhuǎn)化,需要自己算一下頁(yè)數(shù)(目錄+正文最后頁(yè)碼既可)。然后選到開始打印的頁(yè)面,選擇:圖書-打印-從當(dāng)前頁(yè)開始打?。蛴№?yè)數(shù)(自己計(jì)算的頁(yè)數(shù))-確定-選擇打印機(jī)中選擇剛才改名的2打印機(jī)-打印,然后彈出對(duì)話框選擇打印文件(.mdi)名字和存放路徑。保存完畢后mdi文件會(huì)被MicrosoftOfficeDocumentImaging程序自動(dòng)打開。

3、在MicrosoftOfficeDocumentImaging打開文件中選擇:工具-使用OCR識(shí)別文本。注意,如果一次打印的超星頁(yè)數(shù)較多,ocr識(shí)別會(huì)花較長(zhǎng)時(shí)間。等待OCR識(shí)別完畢,選擇:工具-將文本發(fā)送到word-保存。

其他:如果是pdf或caj文件,打開文件后直接選擇:打印-打印頁(yè)數(shù)……等等同2、3步驟。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
[資源]不需要軟件即可使pdf文本轉(zhuǎn)換為word的方式
PDF文件轉(zhuǎn)換成word文件
超星、PDF、CAJ文件轉(zhuǎn)Word的方法
如何把NH、KDH文件轉(zhuǎn)換為PDF或者WORD文檔
怎么把pdf轉(zhuǎn)化成可編輯word文本格式?
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服