gpt4 book ai didi

java - 如何使用 Apache POI 从 PDF 中提取原始文本?

转载 作者:塔克拉玛干 更新时间:2023-11-02 19:29:07 26 4
gpt4 key购买 nike

我需要从几个文件中提取原始文本,其中一些是 PDF,一些是 DOC 文件格式。

我必须使用 Apache POI 来执行此操作。现在,我找到了很多关于处理 word 文件(提取和写入等)的文档,但我找不到任何关于从 PDF 中提取的文档。

我是否认为 Apache POI 具有此功能是错误的?

如果是这样,谁能推荐类似的允许从多种文件格式中提取文本的 Java 程序?

如果没有,任何人都可以指出我应该查看的文档和/或类/方法吗?

提前感谢您的帮助。

最佳答案

是的,您认为 POI 会做到这一点是错误的。 Apache POI适用于 Microsoft Office 文件格式,而 PDF 则不行。

您要么想要使用 Apache PDFBox直接,或我们Apache Tika这将支持 Microsoft Office 和 PDF 文件格式(以及许多其他格式)。

关于java - 如何使用 Apache POI 从 PDF 中提取原始文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16910731/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com