gpt4 book ai didi

python - 使用 Python 查找 PDF 的标题

转载 作者:太空宇宙 更新时间:2023-11-04 01:03:13 24 4
gpt4 key购买 nike

我有一个 PDF 文件,我想将它的标题提取到一个字符串中。我所说的标题不是元数据中的标题,而是文档中写入的实际标题。例如,来自 here我想获得“官方 SAT® 模拟考试 2014-15”

有什么办法可以做到这一点吗?

最佳答案

我会看一下 PDFMiner .本质上,您可以以编程方式加载 PDF。然后你需要做一些分析来弄清楚如何提取标题。也许您尝试使用 first until new line break 或某种算法方法。我建议在您知道标题的地方使用大量 PDF,然后针对它们运行您的程序来测试您是否成功检测到标题。然后您可以使用该代码来处理您不知道标题的 PDF。这种技术通常称为使用训练集。

关于python - 使用 Python 查找 PDF 的标题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31899626/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com