gpt4 book ai didi

perl - 从 pdf 中提取文本的最佳 perl 模块是什么?

转载 作者:行者123 更新时间:2023-12-04 14:51:41 25 4
gpt4 key购买 nike

就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the help center寻求指导。




9年前关闭。




从pdf中提取文本的最佳方法是什么?

最佳答案

CAM::PDF模块对于提取文本和维护一些关于它在文档中来自哪里的信息非常有用。它安装了/usr/local/bin/getpdftext.pl ,它演示了简单的提取。但是,CAM::PDF 只能读取完全有效的 PDF。

如果您正在处理格式错误的 PDF,您可能需要更宽松的解析器,例如 pdftotext。它将 foo.pdf 转储到 foo.txt,然后您可以将其读入 Perl。

关于perl - 从 pdf 中提取文本的最佳 perl 模块是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4730651/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com