gpt4 book ai didi

perl - 哪个模块可以有效地一次性解析 .pdf 文件? CAM::PDF 或 PDF::API2

转载 作者:行者123 更新时间:2023-12-05 01:27:21 29 4
gpt4 key购买 nike

我想从一个巨大的 pdf 文件 [50MB] 中提取所有关键字?
哪个模块适合解析大型 pdf 文件?
我关心解析大文件和提取几乎所有关键字的内存!
在这里,我想要 SAX 类型的解析 [one go parsing] 而不是 DOM 类型的 [类似于 XML]。

最佳答案

要从 PDF 中读取文本,我们使用 CAM::PDF ,它工作得很好。在一些较大的文件上速度不是很快,但处理大文件的能力还不错。我们当然有一些~100Mb,并且处理得很好。如果我记得,我们在 32 位 (Windows) Perl 上遇到了一些 130Mb 的问题,但当时我们在内存中还有很多其他的东西。我们确实看过 PDF::API2 ,但它似乎更倾向于生成从中读取的 PDF。我们没有将大文件放入 PDF::API2 ,所以我不能给出一个真正的基准数字。

我们发现使用 CAM::PDF 的唯一显着缺点是是 PDF 1.6 变得越来越普遍,而这在 CAM::PDF 中根本不起作用。这对您来说可能不是问题,但可能需要考虑。

在回答您的问题时,我很确定这两个模块都以一种或另一种形式将整个源 PDF 读入内存,但我不认为 CAM::PDF用它构建尽可能多的复杂结构。所以两者都不是真正的 SAX,而是 CAM::PDF总体上似乎更轻,并且一次可以检索一页,因此可能会减少提取非常大的文本的负载。

关于perl - 哪个模块可以有效地一次性解析 .pdf 文件? CAM::PDF 或 PDF::API2,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6040799/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com