Python-按页分割pdf-6ren

Python-按页分割pdf

转载作者：行者123 更新时间：2023-12-03 02:09:53

25

4

我正在使用 PyPdf2 将大型 PDF 拆分为页面。问题是这个过程非常慢。

这是我使用的代码:

import os
from PyPDF2 import PdfFileWriter, PdfFileReader

with open(input_pdf_path, "rb") as input_file:
    input_pdf = PdfFileReader(input_file)
    directory = "%s/paging/" % os.path.dirname(input_pdf_path)
    if not os.path.exists(directory):
        os.makedirs(directory)

    page_files = []
    for i in range(0, input_pdf.numPages):
        output = PdfFileWriter()
        output.addPage(input_pdf.getPage(i))
        file_name = "%s/#*#*#*##-%s.pdf" % (directory, i)
        page_files.append(file_name)
        with open(file_name, "wb") as outputStream:
            output.write(outputStream)

使用此代码大约需要 35 到 55 秒才能分割 177 页的 pdf。有什么办法可以改进这段代码吗？还有其他库更适合这项工作吗？

最佳答案

重构

我重构了代码，如下所示:

import os

import PyPDF2


def split_pdf_pages(input_pdf_path, target_dir, fname_fmt=u"{num_page:04d}.pdf"):
    if not os.path.exists(target_dir):
        os.makedirs(target_dir)

    with open(input_pdf_path, "rb") as input_stream:
        input_pdf = PyPDF2.PdfFileReader(input_stream)

        if input_pdf.flattenedPages is None:
            # flatten the file using getNumPages()
            input_pdf.getNumPages()  # or call input_pdf._flatten()

        for num_page, page in enumerate(input_pdf.flattenedPages):
            output = PyPDF2.PdfFileWriter()
            output.addPage(page)

            file_name = os.path.join(target_dir, fname_fmt.format(num_page=num_page))
            with open(file_name, "wb") as output_stream:
                output.write(output_stream)

注意:很难做得更好......

分析

使用此 split_pdf_pages 函数，您可以进行分析:

import cProfile
import pstats
import io

pdf_path = "path/to/file.pdf"
directory = os.path.join(os.path.dirname(pdf_path), "pages")

pr = cProfile.Profile()
pr.enable()
split_pdf_pages(pdf_path, directory)
pr.disable()

s = io.StringIO()
ps = pstats.Stats(pr, stream=s).sort_stats('cumulative')
ps.print_stats()
print(s.getvalue())

使用您自己的 PDF 文件运行分析，并分析结果...

分析结果

分析给了我这个结果:

         159696614 function calls (155047949 primitive calls) in 57.818 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.899    0.899   57.818   57.818 $HOME/workspace/pypdf2_demo/src/pypdf2_demo/split_pdf_pages.py:14(split_pdf_pages)
     2136    0.501    -.---   53.851    0.025 $HOME/virtualenv/py3-pypdf2_demo/lib/site-packages/PyPDF2/pdf.py:445(write)
103229/96616    1.113    -.---   36.924    -.--- $HOME/virtualenv/py3-pypdf2_demo/lib/site-packages/PyPDF2/generic.py:544(writeToStream)
    27803    9.066    -.---   25.381    0.001 $HOME/virtualenv/py3-pypdf2_demo/lib/site-packages/PyPDF2/generic.py:445(writeToStream)
4185807/2136    5.054    -.---   14.635    0.007 $HOME/virtualenv/py3-pypdf2_demo/lib/site-packages/PyPDF2/pdf.py:541(_sweepIndirectReferences)
50245/41562    0.117    -.---    9.028    -.--- $HOME/virtualenv/py3-pypdf2_demo/lib/site-packages/PyPDF2/pdf.py:1584(getObject)
 31421489    6.898    -.---    8.193    -.--- $HOME/virtualenv/py3-pypdf2_demo/lib/site-packages/PyPDF2/utils.py:231(b_)
    56779    2.070    -.---    7.882    -.--- $HOME/virtualenv/py3-pypdf2_demo/lib/site-packages/PyPDF2/generic.py:142(writeToStream)
     8683    0.322    -.---    7.020    0.001 $HOME/virtualenv/py3-pypdf2_demo/lib/site-packages/PyPDF2/pdf.py:1531(_getObjectFromStream)
459978/20068    1.098    -.---    6.490    -.--- $HOME/virtualenv/py3-pypdf2_demo/lib/site-packages/PyPDF2/generic.py:54(readObject)
26517/19902    0.484    -.---    6.360    -.--- $HOME/virtualenv/py3-pypdf2_demo/lib/site-packages/PyPDF2/generic.py:553(readFromStream)
    27803    3.893    -.---    5.565    -.--- $HOME/virtualenv/py3-pypdf2_demo/lib/site-packages/PyPDF2/generic.py:1162(encode_pdfdocencoding)
 15735379    4.173    -.---    5.412    -.--- $HOME/virtualenv/py3-pypdf2_demo/lib/site-packages/PyPDF2/utils.py:268(chr_)
  3617738    2.105    -.---    4.956    -.--- $HOME/virtualenv/py3-pypdf2_demo/lib/site-packages/PyPDF2/generic.py:265(writeToStream)
 18882076    3.856    -.---    3.856    -.--- {method 'write' of '_io.BufferedWriter' objects}

看来:

writeToStream 函数被大量调用，但我不知道如何优化它。
write 方法直接写入流，而不是写入内存 => 可以进行优化。

改进

在缓冲区(内存中)中序列化 PDF 页面，然后将缓冲区写入文件:

buffer = io.BytesIO()
output.write(buffer)
with open(file_name, "wb") as output_stream:
    output_stream.write(buffer.getvalue())

我在 35 秒内处理了 2135 个页面，而不是 40 秒。

优化确实很差:-(

关于Python-按页分割pdf，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39859835/

25

4

0

文章推荐： excel - 创建动态链接

文章推荐： Excel 宏在调试中有效，但在完整运行中无效

文章推荐： excel - Excel列重复值可以用两种颜色突出显示吗？

java正则表达式字符串被 "not\"分割
实际上我只需要用JAVA编写一个简单的程序来将MySQL INSERTS行转换为CSV文件(每个mysql表等于一个CSV文件) 在JAVA中使用正则表达式是最好的解决方案吗？我的主要问题是如何正确
Java读取txt文件到hashmap，按 ":"分割
我有一个 txt 文件，其格式为: Key:value Key:value Key:value ... 我想将所有键及其值放入我创建的 hashMap 中。如何让 FileReader(file) 或
使用正则表达式进行 Java 分割
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求提供代码的问题必须表现出对所解决问题的最低限度的了解。包括尝试的解决方案、为什么它们不起作用以及预期结果
mysql - 分割.sql备份文件
我每周都会从我的主机下载数据库的备份。它生成一个 .sql 文件，当前大小约为 800mb。此 .sql 文件包含 44 个表。有什么方法可以通过某些软件将 .sql 文件与所有表分开，以便单独导出
iphone - 分割 CGImage
在 iOS 4.0 及更高版本中，有没有一种方法可以在不将整个图像加载到内存的情况下对 CGImage 进行分割？我试图做的是*以编程方式*分割图像，以便在使用大图像的 CATiledLayer 应用
javascript - 用这个字符: "\"分割
我的 .split() 函数有问题，我有以下字符串: var imageUrl = "Images\Products\randomImage.jpg"; 我想用字符“\”分割，但是，这种情况发生了:
javascript 正则表达式分割
是否可以使用正则表达式将字符串拆分两次？例如，假设我有字符串: example=email@address.com|fname|lname 如何拆分结果为: email@address.com,fna
Java 数组上的多线程(分割)
我正在寻找一种在线程系统(主从)中使用数组的解决方案，它允许我通过用户输入在多个线程上划分矩阵的计算，并将其通过 1 个主线程引导到多个从属线程，这些从属线程计算矩阵的 1 个字段。我尝试运用我的知
opencv - 分割 - 分离接触对象
我建立了一个系统来分割包含手写符号的二值图像并对它们进行分类(专门用于音乐)。我知道有商业应用程序可以执行此操作，但这是我尝试将其作为一个项目从头开始。为了简单起见，假设我的整个图像中有两个元素:
image - 物体检测+分割
我正在尝试找到一种可接受的复杂性的有效方法检测图像中的对象，以便将其与周围环境隔离将该对象分割成它的子部分并标记它们，这样我就可以随意获取它们我进入图像处理世界已经 3 周了，我已经阅读了很多算
algorithm - 3D 分割
我有一组3D 空间中的点。下图是一个示例: 我想把这些点变成一个面。我只知道点的 X、Y 和 Z 值。例如，查看下图，它显示了从 3D 空间中的点生成的人脸网格。我在谷歌上搜索了很多，但我找到的是一
java - 在字符串java中用字符*分割
我有一个字符串 String placeStr="place1*place2*place3"我想获取包含 place1、place2、place3 的数组，如下所示: String[] places=
Python URL 分割
我在 Python 中有一个类似于 google.com 的字符串，我想将其分成两部分:google 和 .com。问题是我有一个 URL，例如 subdomain.google.com，我想将其拆分
Python中使用pypdf2合并、分割、加密pdf文件的代码详解
朋友需要对一个pdf文件进行分割，在网上查了查发现这个pypdf2可以完成这些操作，所以就研究了下这个库，并做一些记录。首先pypdf2是python3版本的，在之前的2版本有一个对应pypdf库。
assembly - 8086 无操作系统编程；分割
伙计们，这是一个难以解决的问题，因为它涉及很多硬件细节，所以我想把它放到 EE.SE，但它的主要重点是编程，所以我决定坚持在这里。我最近怀旧(以及渴望回到 CPU 内在函数)，所以我决定自制一个 8
list - 分割 Haskell 列表
给定 haskell 中的排序列表，我如何获得分段列表，其中连续数字位于同一列表中。例如，如果我有一个排序列表 [1,2,3,4,7,8,10,12,13,15] 结果将是 [[1,2,3 ,4],[
cocoa :分割 View 的奇怪紫色约束
如果我添加三个分割 View ，如下图所示，第三个分割 View (称为 splitView-3)将自动为该分割 View 中的自定义 View 生成约束，例如 customview1 的 Heigh
javascript - 如果我取消选中该复选框以及如果我选中按 (", "分割，如何打印空白)
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 6 年前。 Improve th
java - 提供具有相同文件分割的 map 分割
如何为馈送给映射器的文件的每一行提供相同文件的拆分？基本上我想做的是 for each line in file-split { for each line in file{
hadoop - 带有Snappy压缩的ORC文件是否可在 strip 分割？
带有Snappy压缩功能的ORC文件是否可拆分成条形？据我所知，Snappy Compressed File是不可拆分的。但我在博客中读到，快速压缩的文件可以在 strip 上拆分。真的吗？最

首页

博学

6Ren·AI

商城

Python-按页分割pdf

重构

分析

分析结果

改进