- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章Python中使用pypdf2合并、分割、加密pdf文件的代码详解由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
朋友需要对一个pdf文件进行分割,在网上查了查发现这个pypdf2可以完成这些操作,所以就研究了下这个库,并做一些记录。首先pypdf2是python3版本的,在之前的2版本有一个对应pypdf库.
可以使用pip直接安装:
pip install pypdf2 。
官方文档: pythonhosted.org/pypdf2/ 。
里面主要有这几个类:
。
pdffilereader .
该类主要提供了对pdf文件的读操作,其构造方法为:
1
|
pdffilereader(stream, strict
=
true, warndest
=
none, overwritewarnings
=
true)
|
第一个参数可以传入一个文件流,或者一个文件路径。后面三个参数都是用来设置警告的处理方式,直接使用默认的即可.
得到实例之后,就可以对pdf进行一些操作了。主要的有以下几个操作:
1
|
{
'/moddate'
:
"d:20150310202949-07'00'"
,
'/title'
: '
', '
/
creator
': '
latex with hyperref package
', '
/
creationdate
': "d:20150310202949-07'
00
'", '
/
ptex.fullbanner
': '
this
is
pdftex, version
3.14159265
-
2.6
-
1.40
.
15
(tex live
2014
/
macports
2014_6
) kpathsea version
6.2
.
0
', '
/
producer
': '
pdftex
-
1.40
.
15
', '
/
keywords
': '
', '
/
trapped
': '
/
false
', '
/
author
': '
', '
/
subject
': '
'}
|
pdffilewriter .
该类支持对pdf文件进行写操作,通常是使用pdffilereader读取一些pdf数据,然后使用该类进行一些操作.
创建该类的实例时不需要参数.
其主要的方法有:
pdffilemerger.
该类用来合并pdf文件,该类的构造方法有一个参数:pdffilemerger(strict=true),注意这里的参数后面会介绍:
常用方法:
使用的时候可以创建一个pdffilemerger实例,然后使用append或者merge将想要融合的pdf文件依次添加进去,最后使用write保存即可.
1
2
3
4
5
6
7
8
9
10
11
12
|
def
merge_pdf():
# 创建一个用来合并文件的实例
pdf_merger
=
pdffilemerger()
# 首先添加一个week1_1.pdf文件
pdf_merger.append(
'week1_1.pdf'
)
# 然后在第0页后面添加ex1.pdf文件
pdf_merger.merge(
0
,
'ex1.pdf'
)
# 添加书签
pdf_merger.addbookmark(
'这是一个书签'
,
1
)
# 将其写入到文件中
pdf_merger.write(
'merge_pdf.pdf'
)
|
下面看一下pdffilemerger(strict=true)中的这个参数:
官方对这个参数的解释:
strict (bool) – determines whether user should be warned of all problems and also causes some correctable problems to be fatal. defaults to true. 。
确定是否应该警告用户所有问题,并且还会导致一些可纠正的问题.
刚开始感觉这个参数就是用来是否警告用户一些错误的,直接使用默认即可,但是当本人尝试合并带中文的pdf时,出现了如下错误:
1
2
3
4
5
6
7
8
|
traceback (most recent call last):
file
"i:\python3.5\lib\site-packages\pypdf2\generic.py"
, line
484
,
in
readfromstream
return
nameobject(name.decode(
'utf-8'
))
unicodedecodeerror:
'utf-8'
codec can't decode byte
0xc8
in
position
10
: invalid continuation byte
during handling of the above exception, another exception occurred:
pypdf2.utils.pdfreaderror: illegal character
in
name
object
|
在源码包中使用utf解码的时候出错了,尝试修改此处源码,让其使用gbk,但是还出现了其他的错误。最后发现当把构造函数中的strict设置为false时,控制台会打印下面的错误:
pdfreadwarning: illegal character in name object [generic.py:489] 。
但是两个文件成功的合并了,并且大概看了下合并后的文件有时好又是坏,同样的代码运行多次,有时候能够正常处理中文,但有时候中文乱码.
除了列出的方法还有一些其他的方法,比如添加书签、添加链接等等,可以参考官方文档.
对pdf进行合并、分割、加密.
整合出来了加密、解密、合并、根据页数进行分割、根据份数进行分割的样例:
使用注意:如果时中文文件,运行结果可能会出现乱码,但是多运行几次,中间有正常显示中文的问题。具体原因还不清楚,但就是这么玄学。。.
代码传送门 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
|
# @time : 2018/3/26 23:48
# @author : leafage
# @file : handlepdf.py
# @software: pycharm
# @describe: 对pdf文件执行合并、分割、加密操作。
from
pypdf2
import
pdffilereader, pdffilemerger, pdffilewriter
def
get_reader(filename, password):
try
:
old_file
=
open
(filename,
'rb'
)
except
ioerror as err:
print
(
'文件打开失败!'
+
str
(err))
return
none
# 创建读实例
pdf_reader
=
pdffilereader(old_file, strict
=
false)
# 解密操作
if
pdf_reader.isencrypted:
if
password
is
none:
print
(
'%s文件被加密,需要密码!'
%
filename)
return
none
else
:
if
pdf_reader.decrypt(password) !
=
1
:
print
(
'%s密码不正确!'
%
filename)
return
none
if
old_file
in
locals
():
old_file.close()
return
pdf_reader
def
encrypt_pdf(filename, new_password, old_password
=
none, encrypted_filename
=
none):
"""
对filename所对应的文件进行加密,并生成一个新的文件
:param filename: 文件对应的路径
:param new_password: 对文件加密使用的密码
:param old_password: 如果旧文件进行了加密,需要密码
:param encrypted_filename: 加密之后的文件名,省却时使用filename_encrypted;
:return:
"""
# 创建一个reader实例
pdf_reader
=
get_reader(filename, old_password)
if
pdf_reader
is
none:
return
# 创建一个写操作的实例
pdf_writer
=
pdffilewriter()
# 从之前reader中将数据写入到writer中
pdf_writer.appendpagesfromreader(pdf_reader)
# 重新使用新密码加密
pdf_writer.encrypt(new_password)
if
encrypted_filename
is
none:
# 使用旧文件名 + encrypted 作为新的文件名
encrypted_filename
=
"".join(filename.split(
'.'
)[:
-
1
])
+
'_'
+
'encrypted'
+
'.pdf'
pdf_writer.write(
open
(encrypted_filename,
'wb'
))
def
decrypt_pdf(filename, password, decrypted_filename
=
none):
"""
将加密的文件及逆行解密,并生成一个无需密码pdf文件
:param filename: 原先加密的pdf文件
:param password: 对应的密码
:param decrypted_filename: 解密之后的文件名
:return:
"""
# 生成一个reader和writer
pdf_reader
=
get_reader(filename, password)
if
pdf_reader
is
none:
return
if
not
pdf_reader.isencrypted:
print
(
'文件没有被加密,无需操作!'
)
return
pdf_writer
=
pdffilewriter()
pdf_writer.appendpagesfromreader(pdf_reader)
if
decrypted_filename
is
none:
decrypted_filename
=
"".join(filename.split(
'.'
)[:
-
1
])
+
'_'
+
'decrypted'
+
'.pdf'
# 写入新文件
pdf_writer.write(
open
(decrypted_filename,
'wb'
))
def
split_by_pages(filename, pages, password
=
none):
"""
将文件按照页数进行平均分割
:param filename: 所要分割的文件名
:param pages: 分割之后每个文件对应的页数
:param password: 如果文件加密,需要进行解密操作
:return:
"""
# 得到reader
pdf_reader
=
get_reader(filename, password)
if
pdf_reader
is
none:
return
# 得到总的页数
pages_nums
=
pdf_reader.numpages
if
pages <
=
1
:
print
(
'每份文件必须大于1页!'
)
return
# 得到切分之后每个pdf文件的页数
pdf_num
=
pages_nums
/
/
pages
+
1
if
pages_nums
%
pages
else
int
(pages_nums
/
pages)
print
(
'pdf文件被分为%d份,每份有%d页!'
%
(pdf_num, pages))
# 依次生成pdf文件
for
cur_pdf_num
in
range
(
1
, pdf_num
+
1
):
# 创建一个新的写实例
pdf_writer
=
pdffilewriter()
# 生成对应的文件名称
split_pdf_name
=
"".join(filename)[:
-
1
]
+
'_'
+
str
(cur_pdf_num)
+
'.pdf'
# 计算出当前开始的位置
start
=
pages
*
(cur_pdf_num
-
1
)
# 计算出结束的位置,如果是最后一份就直接返回最后的页数,否则用每份页数*已经分好的文件数
end
=
pages
*
cur_pdf_num
if
cur_pdf_num !
=
pdf_num
else
pages_nums
# print(str(start) + ',' + str(end))
# 依次读取对应的页数
for
i
in
range
(start, end):
pdf_writer.addpage(pdf_reader.getpage(i))
# 写入文件
pdf_writer.write(
open
(split_pdf_name,
'wb'
))
def
split_by_num(filename, nums, password
=
none):
"""
将pdf文件分为nums份
:param filename: 文件名
:param nums: 要分成的份数
:param password: 如果需要解密,输入密码
:return:
"""
pdf_reader
=
get_reader(filename, password)
if
not
pdf_reader:
return
if
nums <
2
:
print
(
'份数不能小于2!'
)
return
# 得到pdf的总页数
pages
=
pdf_reader.numpages
if
pages < nums:
print
(
'份数不应该大于pdf总页数!'
)
return
# 计算每份应该有多少页
each_pdf
=
pages
/
/
nums
print
(
'pdf共有%d页,分为%d份,每份有%d页!'
%
(pages, nums, each_pdf))
for
num
in
range
(
1
, nums
+
1
):
pdf_writer
=
pdffilewriter()
# 生成对应的文件名称
split_pdf_name
=
"".join(filename)[:
-
1
]
+
'_'
+
str
(num)
+
'.pdf'
# 计算出当前开始的位置
start
=
each_pdf
*
(num
-
1
)
# 计算出结束的位置,如果是最后一份就直接返回最后的页数,否则用每份页数*已经分好的文件数
end
=
each_pdf
*
num
if
num !
=
nums
else
pages
print
(
str
(start)
+
','
+
str
(end))
for
i
in
range
(start, end):
pdf_writer.addpage(pdf_reader.getpage(i))
pdf_writer.write(
open
(split_pdf_name,
'wb'
))
def
merger_pdf(filenames, merged_name, passwords
=
none):
"""
传进来一个文件列表,将其依次融合起来
:param filenames: 文件列表
:param passwords: 对应的密码列表
:return:
"""
# 计算共有多少文件
filenums
=
len
(filenames)
# 注意需要使用false 参数
pdf_merger
=
pdffilemerger(false)
for
i
in
range
(filenums):
# 得到密码
if
passwords
is
none:
password
=
none
else
:
password
=
passwords[i]
pdf_reader
=
get_reader(filenames[i], password)
if
not
pdf_reader:
return
# append默认添加到最后
pdf_merger.append(pdf_reader)
pdf_merger.write(
open
(merged_name,
'wb'
))
def
insert_pdf(pdf1, pdf2, insert_num, merged_name, password1
=
none, password2
=
none):
"""
将pdf2全部文件插入到pdf1中第insert_num页
:param pdf1: pdf1文件名称
:param pdf2: pdf2文件名称
:param insert_num: 插入的页数
:param merged_name: 融合后的文件名称
:param password1: pdf1对应的密码
:param password2: pdf2对应的密码
:return:
"""
pdf1_reader
=
get_reader(pdf1, password1)
pdf2_reader
=
get_reader(pdf2, password2)
# 如果有一个打不开就返回
if
not
pdf1_reader
or
not
pdf2_reader:
return
# 得到pdf1的总页数
pdf1_pages
=
pdf1_reader.numpages
if
insert_num <
0
or
insert_num > pdf1_pages:
print
(
'插入位置异常,想要插入的页数为:%d,pdf1文件共有:%d页!'
%
(insert_num, pdf1_pages))
return
# 注意需要使用false参数,可能会出现中文乱码的情况
m_pdf
=
pdffilemerger(false)
m_pdf.append(pdf1)
m_pdf.merge(insert_num, pdf2)
m_pdf.write(
open
(merged_name,
'wb'
))
if
__name__
=
=
'__main__'
:
# encrypt_pdf('ex1.pdf', 'leafage')
# decrypt_pdf('ex1123_encrypted.pdf', 'leafage')
# split_by_pages('ex1.pdf', 5)
split_by_num(
'ex2.pdf'
,
3
)
# merger_pdf(['ex1.pdf', 'ex2.pdf'], 'merger.pdf')
# insert_pdf('ex1.pdf', 'ex2.pdf', 10, 'pdf12.pdf')
|
总结 。
以上所述是小编给大家介绍的python中使用pypdf2合并、分割、加密pdf文件的代码详解,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对我网站的支持! 。
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!原文链接:https://juejin.im/post/5ce0eca1e51d4510774a87a6 。
最后此篇关于Python中使用pypdf2合并、分割、加密pdf文件的代码详解的文章就讲到这里了,如果你想了解更多关于Python中使用pypdf2合并、分割、加密pdf文件的代码详解的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
全称“Java Virtual Machine statistics monitoring tool”(statistics 统计;monitoring 监控;tool 工具) 用于监控虚拟机的各种运
主要是讲下Mongodb的索引的查看、创建、删除、类型说明,还有就是Explain执行计划的解释说明。 可以转载,但请注明出处。  
1>单线程或者单进程 相当于短链接,当accept之后,就开始数据的接收和数据的发送,不接受新的连接,即一个server,一个client 不存在并发。 2>循环服务器和并发服务器
详解 linux中的关机和重启命令 一 shutdown命令 shutdown [选项] 时间 选项: ?
首先,将json串转为一个JObject对象: ? 1
matplotlib官网 matplotlib库默认英文字体 添加黑体(‘SimHei')为绘图字体 代码: plt.rcParams['font.sans-serif']=['SimHei'
在并发编程中,synchronized关键字是常出现的角色。之前我们都称呼synchronized关键字为重量锁,但是在jdk1.6中对synchronized进行了优化,引入了偏向锁、轻量锁。本篇
一般我们的项目中会使用1到2个数据库连接配置,同程艺龙的数据库连接配置被收拢到统一的配置中心,由DBA统一配置和维护,业务方通过某个字符串配置拿到的是Connection对象。  
实例如下: ? 1
1. MemoryCahe NetCore中的缓存和System.Runtime.Caching很相似,但是在功能上做了增强,缓存的key支持object类型;提供了泛型支持;可以读缓存和单个缓存
argument是javascript中函数的一个特殊参数,例如下文,利用argument访问函数参数,判断函数是否执行 复制代码 代码如下: <script
一不小心装了一个Redis服务,开了一个全网的默认端口,一开始以为这台服务器没有公网ip,结果发现之后悔之莫及啊 某天发现cpu load高的出奇,发现一个minerd进程 占了大量cpu,googl
今天写这个是为了 提醒自己 编程过程 不仅要有逻辑 思想 还有要规范 代码 这样可读性 1、PHP 编程规范与编码习惯最主要的有以下几点: 1 文件说明 2 funct
摘要:虚拟机安装时一般都采用最小化安装,默认没有lspci工具。一台测试虚拟网卡性能的虚拟机,需要lspci工具来查看网卡的类型。本文描述了在一个虚拟机中安装lspci工具的具体步骤。 由于要测试
1、修改用户进程可打开文件数限制 在Linux平台上,无论编写客户端程序还是服务端程序,在进行高并发TCP连接处理时,最高的并发数量都要受到系统对用户单一进程同时可打开文件数量的限制(这是因为系统
目录 算术运算符 基本四则运算符 增量赋值运算符 自增/自减运算符 关系运算符 逻
如下所示: ? 1
MapperScannerConfigurer之sqlSessionFactory注入方式讲解 首先,Mybatis中的有一段配置非常方便,省去我们去写DaoImpl(Dao层实现类)的时间,这个
Linux的网络虚拟化是LXC项目中的一个子项目,LXC包括文件系统虚拟化,进程空间虚拟化,用户虚拟化,网络虚拟化,等等,这里使用LXC的网络虚拟化来模拟多个网络环境。 本文从基本的网络设备讲
? 1
我是一名优秀的程序员,十分优秀!