0.外行看熱鬧,內(nèi)行看門道:
對于CAJ,PDF文件識別為Txt文件后的樣子也都知道了,整體的整理排版的思想如下:
先整理出段落與段落,行與行之間的區(qū)別(本文中實(shí)際操作為添加一個(gè)換行,構(gòu)成段與段之間兩個(gè)換行符,行與行之間一個(gè)換行符),然后把段落標(biāo)記替換為一個(gè)標(biāo)記A(本文中為^l,即軟回車標(biāo)記),然后刪除所有的段落標(biāo)記,再把A給替換為段落標(biāo)記。
1.前言的前言:
CAJ和PDF兩種格式作為網(wǎng)上文檔傳播的主流格式,的確是因?yàn)椴蝗菀妆淮鄹?,原汁原味的保留了出版物和文檔的風(fēng)格,但也正是因?yàn)槿绱耍谑褂谜业胶线m的文檔內(nèi)容的時(shí)候,很多人不得不開兩個(gè)窗口,一對一的將原文逐字手打。
借鑒內(nèi)容少的話,還可以喝杯白開水(沒有咖啡),慢慢來,但動輒幾十上百的大部頭書籍,如果想重排版式的話,就只好哭了。
好在,總有變通的方法。
于是,本文出現(xiàn)了。
2.前言:
實(shí)際上不算是前言,只能算是本文所用到操作的基礎(chǔ)技術(shù)部分。
Word的替換功能在排版過程中的應(yīng)用:
2.1 換行符在替換功能中的應(yīng)用:
如果“查找內(nèi)容”處輸入“^p”(不帶引號),單擊“查找下一處”,就會發(fā)現(xiàn)被Word選中的位置,就是一個(gè)換行符。
如果是“查找內(nèi)容”處輸入^p^p,“替換為”輸入^p,那么,單擊“全部替換”后,就會刪除全篇文檔中的空白段落。
當(dāng)然,如果是文檔中存在三個(gè)以上的換行符,同樣還會存在空段。再次全部替換就能完成刪除空段的效果。
2.2 換行符的分類:
在Word中,也在其他大部分的文檔編輯的程序中,都存在“軟回車”和“硬回車”的定義。
軟回車輸入方法:Shift+Enter
硬回車輸入方法:Enter
具體效果都是換行,但“軟回車”換行之后,實(shí)際的文檔結(jié)構(gòu)沒有改變,換行之前的一部分,跟換行之后的一部分,還是屬于同一個(gè)段落。雖然打印之后的效果會跟硬回車換行效果一樣,但在Word排版的時(shí)候,軟回車符號之后的文字,與其之前的文字屬于同一種的段落格式。
——好像很別扭的描述,但這就是軟硬回車的區(qū)別。。。
在Word中,軟硬回車的換行符標(biāo)記也同樣不同,標(biāo)記如下:
名稱 標(biāo)記 圖示
軟回車 ^l(小寫L) ↓(向下的小箭頭)
硬回車 ^p 打不出這個(gè)符號,就像水平翻轉(zhuǎn)的L
所以說,如果先把兩個(gè)^p^p標(biāo)記換成^l,然后再刪除所有的^p,然后再把^l換成^p^p~~~
3 正式的操作方法(以Caj文檔為例):
將Caj另存為Txt文件,然后用Word打開Txt文件。如下圖:
然后手動將每個(gè)段落之后,追加一個(gè)回車,以保證每個(gè)段落跟上面一個(gè)段落之間都是有一個(gè)空段的。
如下圖:
然后就開始替換:
1.第一步替換,將^p^p替換為^l
然后手動修改需要的地方,就成了完整的Word文檔了。
4 后記和注意:
需要注意的是,如果原來的Pdf或者Caj文檔是圖片格式的話,另存為Txt文件是不可能獲取文字的,還需要將圖片識別為文字。
而識別后,獲取的文字,同樣需要本文中三步替換操作的。
至于識別類的知識,在Baidu上搜索吧。
聯(lián)系客服