信阳甜品代理:Caj,Pdf文档转Word的Doc文档后的整理编辑

来源:百度文库 编辑:95后网站 时间:2019/10/18 09:40:52
Caj,Pdf文档转Word的Doc文档后的整理编辑

0.外行看热闹,内行看门道:

对于CAJ,PDF文件识别为Txt文件后的样子也都知道了,整体的整理排版的思想如下:

先整理出段落与段落,行与行之间的区别(本文中实际操作为添加一个换行,构成段与段之间两个换行符,行与行之间一个换行符),然后把段落标记替换为一个标记A(本文中为^l,即软回车标记),然后删除所有的段落标记,再把A给替换为段落标记。

1.前言的前言:

CAJ和PDF两种格式作为网上文档传播的主流格式,的确是因为不容易被篡改,原汁原味的保留了出版物和文档的风格,但也正是因为如此,在使用找到合适的文档内容的时候,很多人不得不开两个窗口,一对一的将原文逐字手打。

借鉴内容少的话,还可以喝杯白开水(没有咖啡),慢慢来,但动辄几十上百的大部头书籍,如果想重排版式的话,就只好哭了。

好在,总有变通的方法。

于是,本文出现了。

2.前言:

实际上不算是前言,只能算是本文所用到操作的基础技术部分。

Word的替换功能在排版过程中的应用:

在Word中按下Ctrl+H,出现的对话框如图所示:

2.1 换行符在替换功能中的应用:

如果“查找内容”处输入“^p”(不带引号),单击“查找下一处”,就会发现被Word选中的位置,就是一个换行符。

那么,如果是查找“^p^p”,那就是要查找两个换行符了——即一个换行符,空段,一个换行符。

如果是“查找内容”处输入^p^p,“替换为”输入^p,那么,单击“全部替换”后,就会删除全篇文档中的空白段落。
当然,如果是文档中存在三个以上的换行符,同样还会存在空段。再次全部替换就能完成删除空段的效果。

2.2 换行符的分类:

在Word中,也在其他大部分的文档编辑的程序中,都存在“软回车”和“硬回车”的定义。

软回车输入方法:Shift+Enter

硬回车输入方法:Enter

具体效果都是换行,但“软回车”换行之后,实际的文档结构没有改变,换行之前的一部分,跟换行之后的一部分,还是属于同一个段落。虽然打印之后的效果会跟硬回车换行效果一样,但在Word排版的时候,软回车符号之后的文字,与其之前的文字属于同一种的段落格式。

——好像很别扭的描述,但这就是软硬回车的区别。。。

在Word中,软硬回车的换行符标记也同样不同,标记如下:

名称       标记               图示
软回车   ^l(小写L)     ↓(向下的小箭头)
硬回车   ^p                   打不出这个符号,就像水平翻转的L

所以说,如果先把两个^p^p标记换成^l,然后再删除所有的^p,然后再把^l换成^p^p~~~

3 正式的操作方法(以Caj文档为例):

将Caj另存为Txt文件,然后用Word打开Txt文件。如下图:


然后手动将每个段落之后,追加一个回车,以保证每个段落跟上面一个段落之间都是有一个空段的。

如下图:


然后就开始替换:

1.第一步替换,将^p^p替换为^l




2.第二步,将^p替换为空白。

3.第三部,将^l替换为^p^p


完成。

然后手动修改需要的地方,就成了完整的Word文档了。

4 后记和注意:

需要注意的是,如果原来的Pdf或者Caj文档是图片格式的话,另存为Txt文件是不可能获取文字的,还需要将图片识别为文字。

而识别后,获取的文字,同样需要本文中三步替换操作的。

至于识别类的知识,在Baidu上搜索吧。