gpt4 book ai didi

Java- pdfBox 是否可以选择打开文件而不是加载文件?

转载 作者:行者123 更新时间:2023-12-02 01:47:31 32 4
gpt4 key购买 nike

我正在 Java 中使用 PDFBox 来尝试从 pdf 文件中提取文本。这是我加载文件的方式:

PDDocument document = PDDocument.load(new File(path1));

如您所见,它打开文件并加载其中的内容。当我尝试加载一个包含 1000 万个单词或文本的文件时,这可能会导致问题,并且该文件会抛出 OutOfMemoryException:Java 堆空间

我实际上对此进行了测试,它确实引发了错误。罪魁祸首就是上面的那行。有没有办法打开文件但不将其内容加载到 PDFBox 中?

我很感激任何建议。

最佳答案

用途:

PDDocument doc = PDDocument.load(file, MemoryUsageSetting.setupTempFileOnly());

这会将缓冲内存使用设置为仅使用没有大小限制的临时文件。

关于Java- pdfBox 是否可以选择打开文件而不是加载文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53551335/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com