gpt4 book ai didi

java - 如何从 doc 或 pdf 文件中读取特定页面。

转载 作者:行者123 更新时间:2023-12-01 13:15:32 25 4
gpt4 key购买 nike

我有一些 .doc 和 .pdf 文件的文档,我的要求是从我将在运行时提供的 .doc 或 .pdf 文件中读取特定页面。这可以通过逐页阅读和如果我在每页的末尾进行编号。但有些我收到的文档中的编号不是他们的,那么我该怎么做?

他们有任何 API 或任何其他逻辑以便我可以解决这个问题吗?

大家好我有 .DOC 文件,但我不应该读取整个文件,而是给我一个页码。因此我只能从文档文件中读取该特定页面。我正在使用 apache.poi api。

     file = new File("c://doc/assignment/afternoon_24.doc");  
FileInputStream fis=new FileInputStream(file.getAbsolutePath());

我需要读取该文件的第 X 页并写入文本文件?

最佳答案

我猜这是一个误解:您不能简单地将 DOC(或 PDF)作为输入流阅读并跳过页面(除非您了解并评估文件格式)。这两个文件都有一种格式(将格式和元信息编码为某些二进制格式)。只需尝试在记事本或其他纯文本编辑器中打开 PDF。你会看到它。

正如 mkl 建议的那样:要访问 DOC(或 PDF)的内容,您需要一个可以处理该文件格式的库。对于 Microsoft Office 格式,例如有开源库 Apache POI ,对于 PDF 有例如 PDF box其中和 a full thread about it 。每种格式都有不同的库,具有不同的功能和许可模型。

关于java - 如何从 doc 或 pdf 文件中读取特定页面。,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22502667/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com