java - 如何避免通过 iText7 阅读复杂的 PDF 时内存不足？-6ren

java - 如何避免通过 iText7 阅读复杂的 PDF 时内存不足？

转载作者：行者123 更新时间：2023-12-02 00:54:46

26

4

我使用 iText7 和 Java 来读取不是很大 (10-30MB) 的 PDF，但它们包含大量对象，导致在创建和使用 时出现 OutOfMemoryError 问题>Pdf文档。 (内部xref表和Map/Tree/Pdf[Dict/Array]对象有数百万个。)

例如，单个 PDF 可能只有 33MB，但它包含一个包含 800 页、100 万行的表，而 PdfDocument 内部的簿记容量已高达 400MB。这是示例代码和堆转储:

public static void main(String[] args) throws Exception {

    // PDF file is 33MB on disk (one big table over 800 pages)
    File pdf = new File("big.pdf"); // Also tried InputStream

    PdfReader reader = new PdfReader(pdf); // 35MB heap

    PdfDocument document = new PdfDocument(reader); // 400MB+ heap

    // do stuff ... assuming we didn't get an OOM above
}

Image of heap dump from a complex PdfDocument

我们向 JVM 添加了更多内存，但我们不知道其中一些 PDF 可能有多大/复杂，因此需要一种长期解决方案，最好是让我们能够分段或按事件读取内容的解决方案-类回调方式(如XML+STAX/SAX)。

有没有更有效的方法来流式传输 PDF 或将其分解为给定文件或 InputStream 的子 PdfDocuments？我们想要定位并提取诸如表单、表格、工具提示等对象。

更新:我与 IText 团队取得了联系，IText7 不允许部分阅读 PDF。因此，在这种情况下，除了添加更多 RAM 或预解析 PDF mysql 并查找“太多数据”(大量工作)之外，我无能为力。我还检查了 PDFBox，它也遇到了同样的问题。

最佳答案

您可以执行以下操作来读取大文件:

RandomAccessSourceFactory rasf = new RandomAccessSourceFactory();

RandomAccessSource ras = rasf.createBestSource(file);

RandomAccessFileOrArray rafoa = new RandomAccessFileOrArray(ras);

PdfReader pdfReader = new PdfReader(rafoa, null);

关于java - 如何避免通过 iText7 阅读复杂的 PDF 时内存不足？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57828508/

26

4

0

文章推荐： c# - 什么是 "index out of range"异常，如何修复它？

文章推荐： java - 更改字体颜色并使其带有下划线

文章推荐： vb.net - NumericUpDown 上的 MouseWheel 事件

itext - iText 包含哪些默认字体？
iText 文档指出它只包含特定的字体子集，但从未说明它们是什么。有没有人知道 iText 中默认包含哪些字体？ (我在网上搜索过，在任何地方都找不到这个字体列表!) 最佳答案它可能指的是PDF S
itext - IText 7 表格中的列宽问题
我使用固定列宽创建了下表，如下所示， Table headerTable = new Table(new float[]{5,5,5}); headerTable.setWidthPercent(
itext - 缩放图像以使用 iText 填充多个页面
我正在尝试使用 iText 缩放图像(在新的 PDF 文档上)以使其填充页面宽度而不拉伸(stretch)，这样它可能需要几页。我找到了很多解决方案，但它们都非常复杂，而且我真的不喜欢那样编码。到目
itext - Flying Saucer/iText
我正在使用 Flying Saucer/iText 生成报告。现在报告有一个条件，如果特定条件发生，报告应该移动到 pdf 的下一页，并在 PDF 上添加数据等等。问候帕万最佳答案您必须使用 c
itext - Flying Saucer/iText
我正在使用 Flying Saucer/iText 生成报告。现在报告有一个条件，如果特定条件发生，报告应该移动到 pdf 的下一页，并在 PDF 上添加数据等等。问候帕万最佳答案您必须使用 c
itext - 使用 iText 获取行位置
如何使用 iText 找到文档中的行的位置？假设我有一个 PDF 文档中的表格，并且想要阅读其中的内容；我想找到细胞的确切位置。为了做到这一点，我想我可能会找到线条的交点。最佳答案我认为您使用
itext - 使具有带有 itext 的滚动条的表的可编辑单元格只读
请找到下面的代码。 public class MakingFieldReadOnly implements PdfPCellEvent { /** The resulting PDF. */
itext - 在 iText 7 中编写文档时如何获得垂直光标位置？
在 iText 5 中有一个名为 getVerticalPosition() 的方法，它给出了下一个写入对象在页面上的位置。作为回答这个问题 How to find out the current c
itext - 在 TextField IText 中调整文本
抱歉，如果有类似我的帖子，但我是这个论坛的新手，我还没有找到它。我有动态调整 TextField 大小取决于文本大小的问题。我填写现有的 PDF - 在 AcroForm 中填写字段: form.s
itext - 要知道它是否是 ITEXT pdf 中的新页面
我正在使用 itext 生成 pdf。因此，当页面内容超出时，它会自动创建一个新页面。我想知道它是否创建了一个新页面。如果是，我想在页面顶部添加一些图像。 List paylist =new List
itext - 删除表格 iText java 的左右边距
我的有问题固定表格左侧和右侧的边距。我想删除该边距并使用没有边距或填充的所有工作表。我该怎么办？我刚刚试过这个，但对我不起作用: cell.setPaddingLeft(0); cell.se
itext - 如何使用 Itext 对齐段落(对齐)？
我有 2 行，我想对齐(证明)它们。我有这个代码: Paragraph p=new Paragraph(ANC,fontFootData); p.setLeading(1, 1);
itext - 使用外部服务和 iText 签署 PDF
我有这样的场景。我有一个生成 PDF 的应用程序，需要对其进行签名。我们没有用于签署文档的证书，因为它们位于 HSM 中，而我们使用证书的唯一方法是使用 Web 服务。此网络服务提供两个选项，发
itext - 如何实现 itext 7 表中列之间的空间？
我需要实现一个看起来像图片中的表格，列之间有空间。我试过: cell.setPaddingLeft(10); cell.setMarginLeft(10); extractio
itext - 如何实现 itext 7 表中列之间的空间？
我需要实现一个看起来像图片中的表格，列之间有空间。我试过: cell.setPaddingLeft(10); cell.setMarginLeft(10); extractio
itext - 使用 iText 将复选框添加到 PDF 文档
我需要使用 Java 的 iText 库创建一个 PDF 文档。我还需要包括一些复选框，这些复选框根据某些类变量的值打开/关闭。我找到了一些关于交互式表单的示例，但我不需要这种复杂程度:只需将一些复选
itext - 如何使用 iText PdfStamper 将内容添加到 PDF
我正在开发一个系统，我必须在其中将一些图像添加到现有的 PDF 文档中。这适用于 iText 5.1.3，但由于某种原因，在包含扫描图像的 PDF 中，它不会添加任何图像。这是 PDF Docum
itext - 使用 iText 提取 PDF 文本
我们正在研究信息提取，我们想使用iText。我们正在探索 iText。根据我们查阅过的文献，iText 是最好的工具。是否可以从 iText 中每行的 pdf 中提取文本？我在与我的相关的 stac
itext - 使用 iText 填充现有的 pdf 文本字段
我已经创建了一个带有一些文本字段的 pdf 文档。我可以使用 Adobe 阅读器填充这些文本字段并将这些值保存在该文件中。我的问题是，我可以使用 iText 以编程方式执行此操作吗？如果可能，请
itext - 如何摆脱 PdfPCell、iText 5 中的顶部填充
我正在使用 iText 5 表创建标签(如 Avery 标签)。标签元素的定位需要一些非常严格的公差，以便适合标签上的所有内容。我的问题是标签上有多个区域为 PdfPCells。我需要将文本放入这些区

首页

博学

6Ren·AI

商城

java - 如何避免通过 iText7 阅读复杂的 PDF 时内存不足？