百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

手把手 | 20行Python代码教你批量将PDF转为Word

off999 2024-10-31 14:01 36 浏览 0 评论

大数据文摘作品

投稿作者丁彦军

在日常工作或学习中,经常会遇到这样的无奈:

“小任,你把这个PDF中的文件码出来发我”

艹,倒霉,2M的PDF12点也完不了啊!

很多时候在学习时发现许多文档都是PDF格式,PDF格式却不利于学习使用,因此需要将PDF转换为Word文件,但或许你从网上下载了很多软件,但只能转换前五页(如WPS等),要不就是需要收费,那有没有免费的转换软件呢?

so,我们给各位带来了一个免费简单快速的方法,手把手教你用Python批量处理PDF格式文件,获取自己想要的内容,存为word形式。

在实现PDF转Word功能之前,我们需要一个python的编写和运行环境,同时安装好相关的依赖包。 对于python环境,我们推荐使用PyCharm。 在本地电脑环境,anaconda提供了非常便利的安装和部署。

PDF转Word功能所需的依赖包如下:

  • PDFParser(文档分析器)

  • PDFDocument(文档对象)

  • PDFResourceManager(资源管理器)

  • PDFPageInterpreter(解释器)

  • PDFPageAggregator(聚合器)

  • LAParams(参数分析器)

前期准备工作

说明:本文是在Windows7下使用python最新的3.6版本

1.安装pdfminer3k模块

安装anaconda后,直接可以通过pip安装

2.若安装不成功,可以试试下面方法

首先下载pdfminer3k:https://pypi.python.org/pypi/pdfminer3k;然后安装pdfminer,将下载好的pdfminer3k解压到D:或其他合适的盘符,通过win+r 打开运行窗口,输入cmd;输入D:切换到D盘,cd pdfminer3k(pdf解压的文件夹),输入setup.py install安装软件。

最终显示Finished,则代表成功

代码实操

1.导入相关包

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator

整体思路为:构造文档对象,解析文档对象,提取所需内容

构造文档对象

构造解释器

2.导入需要解析的PDF文件

将所需解析的文件与执行代码放到同一个目录下,如图:

test.pdf内容

3.具体代码如下:

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
def parse():
 #rb以二进制读模式打开本地pdf文件
 fn = open('test.pdf','rb')
 #创建一个pdf文档分析器
 parser = PDFParser()
 #创建一个PDF文档
 doc = PDFDocument()
 #连接分析器 与文档对象
 parser.set_document()
 doc.set_parser()
 # 提供初始化密码doc.initialize("lianxipython")
 # 如果没有密码 就创建一个空的字符串
 doc.initialize("")
 # 检测文档是否提供txt转换,不提供就忽略
 if not doc.is_extractable:
 raise PDFTextExtractionNotAllowed
 else:
 #创建PDf资源管理器
 resource = PDFResourceManager()
 #创建一个PDF参数分析器
 laparams = LAParams()
 #创建聚合器,用于读取文档的对象
 device = PDFPageAggregator(resource,laparams=laparams)
 #创建解释器,对文档编码,解释成Python能够识别的格式
 interpreter = PDFPageInterpreter(resource,device)
 # 循环遍历列表,每次处理一页的内容
 # doc.get_pages() 获取page列表
 for page in doc.get_pages():
 #利用解释器的process_page()方法解析读取单独页数
 interpreter.process_page(page)
 #使用聚合器get_result()方法获取内容
 layout = device.get_result()
 #这里layout是一个LTPage对象,里面存放着这个page解析出的各种对象
 for out in layout:
 #判断是否含有get_text()方法,获取我们想要的文字
 if hasattr(out,"get_text"):
 print(out.get_text())
 with open('test.txt','a') as f:
 f.write(out.get_text()+'\n')
if __name__ == '__main__':
 parse()

最终得到的test.txt结果如下:

结束

对于Python批量PDF转Word的操作介绍就到此,本文仅仅作为一种运用库展示代码编写过程,具体技术还需要有兴趣的朋友,与我一起讨论专研,互相学习进步。

本文为投稿作品,仅代表个人观点。

作者介绍:

一个痴迷于Python语言的业余程序猿,经过半年苦练,经历过从入门到放弃,现在庆幸走到痴迷于Python状态。未来的理想是能够与一群痴迷于Python语言的程序猿做有意义的事。知乎专栏链接:https://www.zhihu.com/people/cai-niao-fen-xi-64/activities

相关推荐

最新电脑主机配置清单(2021电脑主机主流配置)

1.CPU全志a31s80元主板建议联想乐pad160元显示屏7寸分辨率建议在800*480以上约110元电源接口约0.2元wifi模块约20元蓝牙模块约20元硬盘建议金...

windows7系统界面(win7界面什么样)

关于这个问题,要将Win1系统调成Win7界面,您可以尝试以下几个步骤:1.下载并安装一个Win7主题:在网上搜索并下载一个Win7主题,例如“Windows7ThemeforWin10”,...

把文件隐藏了怎么显示出来(文件隐藏起来了怎么找)

需要显示出来因为有些文件被系统默认设置为隐藏状态,为了查看或编辑这些文件,需要将它们显示出来。如果你使用Windows操作系统,可以在文件资源管理器中点击“查看”选项卡,然后勾选“隐藏项目”复选框,隐...

mercury路由器wifi密码(mercury路由器wifi密码忘了怎么办)

水星路由器宽带密码查看的方法:一、首先登陆原来路由器管理界面,输入路由器账号密码登陆。二、进入路由器管理界面后,点击进入“备份和载入配置”,然后点击“备份配置文件”,然后将备份的配置文件存放在电脑桌...

microsoft word产品密钥(微软word产品密钥)

产品密钥是由一些字符组成的代码,用于激活对应产品。产品密钥是产品授权的证明,它是根据一定的算法(如椭圆算法)等产生的随机数。当用户输入密钥产品会根据其输入的密钥判断是否满足相应的算法,通过这样来判断,...

笔记本显卡推荐(笔记本显卡推荐性价比高)

1、微星R7850TF2GD5/OC:这款微星显卡是用GCN架构设计的图形核心,里面有1024个sp单元,执行、输出能力都非常的强悍,能完美地将DX11.1特效呈现出来。它还能够支持驳接各种大型...

hp系统重装win10(hp怎么重装系统win10)

答具体解决方法如下准备工作:  1、下载u启动u盘启动盘制作工具  2、下载win10系统镜像并存入u盘启动盘中  3、硬盘模式更改为ahci模式  安装win10系统操作步骤:  1、首先,我们提...

惠普笔记本电脑售后服务(惠普笔记本电脑售后服务维修点)

惠普笔记本电脑的售后服务包括全国联保、上门维修、24小时服务热线等多种服务。消费者可以通过官网或客户服务热线轻松预约维修服务,享受专业、高效的技术支持。同时,惠普还提供质保服务和延保服务,保障消费者的...

住房公积金管理中心官网(广州住房公积金管理中心官网)

按照《住房公积金管理条例》有关规定,住房公积金管理中心性质属于事业单位,隶属事业单位编制。使用手机查询住房公积金的方法。微信查询法1、打开微信,点击进入“我”的页面,在这个页面找到钱包;2、点击进入...

远程控制系统(路灯远程控制系统)

      汽车远程控制系统是一种通过移动终端或其他设备远程控制汽车的系统,可以实现远程锁车/解锁、远程启动车辆、远程启动空调、...

惠普1136打印机驱动(惠普1136打印机驱动用的是1130吗)

原因:1、可能是安装驱动步骤错了,下载驱动的步骤一定要按步骤检查安装。2、可能是驱动程序兼容性问题,或驱动程序损坏,建议使用驱动管理软件安装,这样简单,而且是最新的,兼容性、稳定性好。3、可能是打印机...

office2013标准版产品密钥(microsoft office2013产品密钥在哪里能找到)

win7/win8/win10系统下VisualStudio2013各个版本的密钥:VisualStudioUltimate2013KEY:BWG7X-J98B3-W34RT-33B3R-...

win7旗舰版电脑非常卡怎么办

针对Windows7旗舰版卡顿的情况,可以尝试以下几种方法来解决:1.升级硬件:如果你的电脑配置较低,可以考虑升级一下硬件,例如更换内存条、加装固态硬盘等。2.清理磁盘:清理电脑中不必要的文件、...

随身wifi怎么用的使用教程(随身wifi怎么用的使用教程图解)

1、将随身wifi插入电脑端,按照提示操作2、首次安装驱动后,随身wifi会随机生成10位默认密码,每台电脑是不相同的。为方便连接,也可手动设置为相同的密码。3、随身WiFi客户端支持3种手机连接方式...

gho文件制作u盘启动盘(ghost文件制作启动盘)

有些优盘制作工具只会制作启动盘,里面是没有包括映像文件的,需要你自己下载。后拷贝gho文件到GHO目录里。你可以检查一下优盘里的内容,尤其是GHO文件夹,没有的话,自己拷贝需要的进入就行了。(1)制作...

取消回复欢迎 发表评论: