gpt4 book ai didi

python - 如果元数据不存在,PDF-Plumber 提取标题

转载 作者:行者123 更新时间:2023-12-04 09:26:26 25 4
gpt4 key购买 nike

我已经使用 pdf 管道工根据 GitHub 页面( https://github.com/jsvine/pdfplumber )从 pdf 文件中提取文本我浏览了所有属性,如果元数据不存在,我需要提取 pdf 的标题。
或者我们可以使用 python 实现的任何其他方式

import pdfplumber
pdf = pdfplumber.open(r'1.pdf')
page = pdf.pages[0]
text = page.extract_text()
print(page.chars[0])

最佳答案

我找到了以下方法

import pdfplumber
pdf = pdfplumber.open(r'1.pdf')
page = pdf.pages[0]

filtered = page.filter(lambda x: x.get("size", 0) > 20)
filtered.extract_text()

关于python - 如果元数据不存在,PDF-Plumber 提取标题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62995579/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com