gpt4 book ai didi

python - 使用 PyPDF2 仅选择 PDF 的第一页

转载 作者:太空狗 更新时间:2023-10-30 01:25:59 28 4
gpt4 key购买 nike

我试图只删除多个 PDF 文件的第一页并组合成一个文件。 (我每天收到 150 个 PDF 文件,第一页是我需要的发票,接下来的三到 12 页只是我不需要的备份)所以输入是 150 个不同大小的 PDF 文件,我想要的输出是1 个 PDF 文件,仅包含 150 个文件中每个文件的第一页。

我似乎所做的是合并除第一页之外的所有页面(这是我唯一需要的页面)。

# Get all PDF documents in current directory
import os

pdf_files = []
for filename in os.listdir("."):
if filename.endswith(".pdf"):
pdf_files.append(filename)
pdf_files.sort(key=str.lower)

# Take first page from each PDF
from PyPDF2 import PdfFileWriter, PdfFileReader

for filename in pdf_files:
reader = PdfFileReader(filename)

writer = PdfFileWriter()
for pageNum in range(1, reader.numPages):
page = reader.getPage(pageNum)
writer.addPage(page)

with open("CombinedFirstPages.pdf", "wb") as fp:
writer.write(fp)

最佳答案

试试这个:

# Get all PDF documents in current directory
import os

your_target_folder = "."
pdf_files = []
for dirpath, _, filenames in os.walk(your_target_folder):
for items in filenames:
file_full_path = os.path.abspath(os.path.join(dirpath, items))
if file_full_path.lower().endswith(".pdf"):
pdf_files.append(file_full_path)
pdf_files.sort(key=str.lower)

# Take first page from each PDF
from PyPDF2 import PdfFileReader, PdfFileWriter

writer = PdfFileWriter()

for file_path in pdf_files:
reader = PdfFileReader(file_path)
page = reader.getPage(0)
writer.addPage(page)

with open("CombinedFirstPages.pdf", "wb") as output:
writer.write(output)

关于python - 使用 PyPDF2 仅选择 PDF 的第一页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47125961/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com