英文PDF文件,复制到WORD大部分是乱码,应该不是加密的问题,是文档质量不好,有些模糊。怎么办

如题所述

谈Pdf与Word互转

在日常工作中,我们常用word进行编辑文档,它便于修改、排版、打印。但对标准来说,大多是PDF格式,这样的格式对于后期复审和修订时需要改动、调整很不方便,有必要转换成word文本格式。同时有时为了让自己写的word文档不轻意让别人修改,也可以做成pdf格式。今天我就图片、PDF与Word之间格式互转探讨如下:

简要目录
一、图片与pdf格式互转…………………………………1
二、PDF转成Word…………………………………………10
三、Word转成PDF…………………………………………24
四、注意事项………………………………………………28
一、图片与pdf格式互转
(一)、把扫描图片制成pdf
为了方便阅读和下发,我们一般是把书面材料扫描成图片,通常扫描图片格式有jpeg、bmp、tiff等,再用软件制成pdf文档。如果只是为了识别,建议在扫描图片时大家设置成bmp格式、黑白、分辨率设置在300以上。把书本订书针拆开,一页一页平整放在扫描仪上进行扫描,这样扫描的图片才清晰美观,才能进行后期编辑和识别。
把多张图片制成pdf,请注意先把图片按顺序编好号,制成DPF一般采用下面的简单方法:
1、把Image To PDF软件夹复制到硬盘任意目录,点击“Image To PDF”图标启动主程序。

2、先点击主界面中的“设置”进行软件的相关设置,注意此软件是设置好后下次生效,即设置好了后关掉该软件,再打开软件时才会生效。设置内容如下:
(1)、输出方式一般是选第一个,即只生成一个pdf,其它默认。

(2)、在图像处理这项,如果选择jpeg,那要注意最底下的压缩质量这项,数值设置太大,生成的pdf体积就最大,当然也最清楚,反之体积就越小,可以通过细调获得最好的效果。

(3)、页设置这项,一般选择A4纸,由于图片是扫描的本就包括了页边距,故在此不需再设置页边距。此外,像PDF水印、加密、信息等其它项,如果要求不高都可以用默认值。

3、点击“文件——添加文件”,找到扫描好并且已经编好号的图片,选定全部图片后打开,打开后你还可以在右边调整顺序。

4、点击“生成pdf文件”,过一会儿就可以在存放图片的文件夹里看到刚才转换生成的pdf文件。如果对生成的文件质量不满意,可以通过调整设置里的“图像处理”里的参数来更改文件。以下为转换过程和转换结果。

(二)、pdf文档分解成图片
有时为了方便地插入文档中,或者我们只需要pdf里面的某一段、某一页,此时就需要把pdf分解成图片。考虑到图片质量、大小、及后期处理方面,请一定注意软件的设置。此时我们需要用到另一款绿色小软件PDF to IMAGE,这个软件的名字和上面那个软件的名字是反过来的,故功能也是相反的。
1、把PDF to IMAGE软件夹复制到硬盘任意目录,点击“pdf to image”图标启动主程序。

2、先点击“设置”进行软件的相关设置,注意此软件也是设置好后下次生效,即设置好了后关掉软件,再打开软件时才会生效。设置内容如下:
(1)、常规选项一般不用改动,当然你可以自定义路径。

(2)、页面选项里,一般是所有页面,缩放比例100%。后面的重命名选项一般不用改动。

(3)、图像选项这里比较重要,如果只是插到文档里,可以选jpeg,分辨率100就足够了。但如果为了后期识别,源文件又是黑白的,经过多次实验得出可以选Jpeg格式,分辨率设置300以上,用灰度8位就行,品质50%以上就可以,这样生成的图片比较清晰,后期识别也没有问题。当然,前提条件是你的PDF也很清晰。

3、点击添加文件,找到你需要把它分解成图片的pdf,打开。

4、点击转换,开始进行转换。完成后,在你设置保存模式的文件夹里就可以看到转换好的图片。当然,你还可以根据需要设成别的图片格式。

二、PDF转成Word
平时我们使用的pdf格式文档,一部分是由word文档转成,但绝大部分是把纸面材料扫描成图片,再制成pdf,通常下载的标准就是这样制成的,这种格式具有阅读直观、保护作者著权、打印方便等特点。在了解这两种形式后,我们就可以入手解决转换问题了。
(一)、针对word文档转成pdf格式
有些pdf格式是直接由word、excel等文档直接转化成的,这类格式的转换,只需要安装软件Solid Converter PDF,就很容易再还原成word文档。此软件是绿色软件,不需要安装。
1、把Solid Converter PDF软件夹复制到硬盘上任意目录,点击“Solid Converter PDF”进入软件的主程序。

2、进入软件操作界面。你可以在右边的选项里对保存路径、输出格式等参数进行设置。

3、双击打开需要转换pdf文件,软件会进入一些转换设置。在这儿,你可以根据实际需要进行设置,通常是选择“页面流程”。

4、点击“下一步,下一步……”进行设置。在每一步中,软件界面都有示范,可以根据需要进行选择。通常可以选定文件后在进行版面设置时直接点击“最后一步”,完成转换,结果如图。

5、再进行页面、字体、段落、表格等简单设置和调整,得到最终文档如图。

(二)、扫描图片转成word
现应用的标准大都是把打印好的纸面材料扫描成图片,再制成pdf格式。如果为了得到文本方便后期修改,我们可以先不用制成pdf格式,而是直接通过OCR识别软件将图片一个字一个字进行识别。此时要用到OCR软件“汉王文本王文豪7600全能专业版”,这是一个安装文件,需先进行安装,再进行破解。用这种方法这个软件来识别一些表格比较多的定额标准效果特别好。
1、点击汉王文本王文豪7600全能专业版软件夹里的setup进行安装。根据实际情况选好路径,其它组件可以不用选。安装完成后,把“完美破解”文件夹里的全部文件复制到安装目录下,覆盖原文件,这样就完成了破解。
2、运行桌面上的“文本王专业版”快捷方式启动该软件,其它不需要的快捷方式可以删掉。软件主界面如下:

3、用“文件——打开图像”打开扫描好的图片,注意所有图片应该提前按内容顺序排好序号。

4、点击“分析”旁边的下拉三角形,选择“分析全部”后,再点一下“分析全部”。软件会一页一页地进行分析,分析完了后自动停止。设置好了后下次可以直接点“分析全部”。

5、点击“识别”旁边的下拉三角形,选择“识别全部”后,再点一下“识别全部”。软件会一页一页地进行识别,识别完成后自动停止。设置好了后下次可以直接点“识别全部”。

6、识别完毕后,一定要注意用鼠标全部选择左边栏打开的那些图片,再点击“导出wrod”,这样就把识别好的文档自动排版成word格式了。此时千万要注意,确保你的电脑没有打开其它的文档,否则它就会在你打开的文档后面添加识别结果。当然,这个识别软件还有很多别的选项和功能,大家感兴趣的话可以自己实验。

7、识别完成后文档会自动打开。这就是识别完后自动打开的word,效果还可以吧?大家千万别以为这就完事了,接下来还有很多工作要做。

8、整个识别工作就算完成了,此时就可以关掉那些软件和其它程序,接下来就需要细心地调整这个还不太成熟的word文档。
(1)、首先应该是要保存,因为刚才转换完后自动打开的“文档1”只是存放在内存里,另存为word就可以了,名字和路径随你定。接下来要设置其它的东西了,在设置前请朋友们最好全选文档。
(2)、进行页面设置,一般都是A4,当然还有页边距等。在这儿,生成的那个文档其实已经默认好了,你可以根据实际情况更改。
(3)、设置字体、字号、段落等,我们可以先把文档全部设成宋体、5号字,段落可以先统一设置如图:

(4)、然后,可以把文本里的“空格”全部替换掉,具体方法大家都会吧?在“查找内容”那儿敲入一个空格,“替换为”那儿什么都不输,然后点全部替换,怎么样,美观多了吧?
(5)、硬回车的消除。这个在一些表格里比较多,如果不消除会影响美观,方法还是用“替换”,即把“段落标记”替换为空即可,但有些文字描述的段可能也会乱,这个就需要手动修改,毕竟不多。

(6)、还有其它好多格式可以的替换来处理,大家可以慢慢试。像图片里的的页眉,即标准号之类的,同样可以用替换法去除。

(7)、把word文档里的表格导出到excel中。有时为了方便数据的整理和下发给各单位采集数据,需要把标准里的表格单独提出来进行处理,可以用以下方法简单解决。
首先在Word文档中选择“文件→另存为”,在文件类型中选择“单个网页文件”。接下来打开Excel,选择“数据→导入外部数据→导入数据”,在“选择数据源”对话框中选择我们刚刚保存的HTM文件,单击“打开”。在“新建Web查询”窗口中点击你要导入的表格数据前面的黄色“箭头”标记(如果不进行勾选标记,默认的将是全部导入,一般全部导入),最后选择“导入”,并选择“数据的放置位置(一般默认)”即可。最后,还是需要手动调整表格,但这个就比较简单了。删除不需要的文字描述后,根据需要进行调整。
(8)、最后最重要的一步就是,删除乱码,同时仔细校对。在粗略的校对中,我们一般看有乱码的地方和有红色标记的地方进行修改就可以了。其它细节问题,只有手动慢慢调整了。
(三)、扫描图片制成的pdf转成word
通常有两种方法,一种是先把pdf转成一组图片,再把OCR识别软件识别成word,这两步上面都介绍过了。另一种方法就是运用另一款识别软件直接进行识别,这种方法针对表格很少的定员标准非常合适,举例如下:
1、安装“汉王 PDF OCR V8.1简体中文版”,这不是绿色软件,需要安装,但这个软件是免费的,不需要破解。安装完成后运行桌面上的“汉王 PDF OCR”快捷方式,启动软件主界面如图。

2、点击“文件——打开图像”,选择一个表格很少的pdf定员标准进行识别。这个软件的优点是可以直接打开pdf文件进行识别,当然也可以打开图像文件进行识别。

3、软件会自动识别出此pdf包括多少页图像,而且会把pdf自动当作图像一张一张地拆开,方便后期进行识别,直接点确定。

4、点击确定后,大家看看是不是和上一个汉王的软件很相似呀,当然了,因为他们是一个公司出的两个软件。

5、注意工具栏上的那些小按钮功能,把鼠标放上去后会有提示。特别注意操作每一步时都要先点工具栏的“选定全部。”否则只是对当前的一张图片进行了操作,全部选定后点击“版面分析”,分析完成后,点“开始识别”。

6、识别完成后,我们需要保存识别结果了,点击“输出——到指定格式文件”,保存格式选“RTF”。实际上RTF可以看成是简化的word,可以直接用文本打开,当然它默认的也是word打开。

7、保存到指定的路径后,打开文档,看看是什么样子,效果应该不错的。但仔细看一下,为什么一段一段地都有文本框框着的呢?这点很不方便后期修改,需要去掉。下面说一种简单的方法。

8、首先保存为word,因为刚才生成的是RTF格式,然后进行页面设置、字体设置、段落设置等,和上一个识别软件一样要进行必要的基本设置和调整。再就是全部选定,“复制”——“选择性粘贴”——“无格式文本”,效果还满意吧。

9、最后进行删除硬回车操作和进行其它设置、修改、仔细校对等,完成最终工作。

三、Word转成PDF
有时,我们也需要将自己做好的word文档生成PDF,用一个小软件DOCtoPDF很容易实现。这是个英文软件,需要安装和运行注册机算号注册,简单介绍如下:
1、把DOCtoPDF软件夹复制到硬盘任意目录,关闭所以打开的word文档,点击“doc2pdf”开始安装主程序,按默认值安装就行。

2、打开任意一个word文档,你会发现在工具栏下面多了几个插件,第一次使用时点击“Save as PDF”进行注册,以后点“Save as PDF”就会直接开始转换。在弹出对话框中选“Register”进行注册。

3、进入此界面后,再打开另DOCtoPDF软件夹里的另外一个程序“Keygen”进行算号。在“name”栏随便输入英文名字,软件会自动在下面的“Serial”生成序列号。

4、把用注册机生成的名字和序列号分别填入刚才要注册的那个窗口。按“Register”键进行注册,此时会有英文显示注册成功。

5、再点击插件栏的第二个图标,进行软件设置,设置如图。其中输出路径可以根据实际情况修改就行,其它设置按默认就可以。

6、点OK后会让你再确认输出文件路径和名字,填好后保存,完成转换,软件会自动打开生成的PDF进行查看,到此转换完成。用此方法转换成的PDF是非常完美的。

四、注意事项
1、原书面文本一定清楚,扫描时一定要设置好和操作好,这样扫描的图片才能很清楚,才能使后期识别顺利进行。
2、网上下载的pdf也一定要清楚,如果是歪歪斜斜的、模模糊糊的,后期很不好识别。
3、文章里介绍的OCR识别软件,一般会在相应的文件夹生成一些相对应的文本文件和其它文件,保存结果后可以直接删除即可。这些文件通常是为了方便下次进行再识别而保存的。
4、文章介绍的所有软件经多款对比、试用正常后推荐使用。
4、没有十全十美的方法,这样做仍需要费时费力。这些方法是我经过大量实验,花了大量时间总结出来的,也有不成熟的地方,希望对大家有所帮助。
温馨提示:答案为网友推荐,仅供参考
第1个回答  2011-11-09
下载个程序转换器
相似回答