读取 PDPage 时出现 java.io.IOException : RandomAccessBuffer already closed,-6ren

读取 PDPage 时出现 java.io.IOException : RandomAccessBuffer already closed,

转载作者：行者123 更新时间：2023-12-01 10:32:39

我创建了一个将 PDF 转换为 Excel 的程序。转换需要很长时间(100 页=10 分钟)。它运行正常大约 15-20 分钟，之后读取 PDPage 时出现错误。

Java GC 是否有可能在程序结束之前“清理”变量？

代码:

private class Search_Text implements Runnable {

    private int x, y, width, height;
    private PDPage pdPage;
    private Object lock;
    private ArrayList<Object[]> result;
    private PDFTextStripperByArea strip;

    public Search_Text(int x, int y, int width, int height, PDPage pdPage, Object lock) throws IOException {
        this.x = x;
        this.y = y;
        this.width = width;
        this.height = height;
        this.pdPage = pdPage;
        this.lock = lock;
        this.result = new ArrayList<>();
        this.strip = new PDFTextStripperByArea();
    }

    @Override
    public void run() {

        if (height < 10) {
            int upper = y;
            int bottom = 1;
            ArrayList<Object[]> st = new ArrayList<>();
            String str = "";
            while (upper + bottom <= y + height) {
                strip.addRegion("cell", new Rectangle(x, upper, width, bottom));
                //System.out.println("prova.Pdf2Excell.log_extract()BEFORE LOCK" + init);
                synchronized (lock) {
                    try {
                        strip.extractRegions(pdPage);
                    } catch (IOException ex) {
                        Logger.getLogger(Pdf2Excell.class.getName()).log(Level.SEVERE, null, ex);
                    }
                }
                str = strip.getTextForRegion("cell");
                if (!emptyString(str)) {

                    st.add(new Object[]{str, upper + bottom, upper});
                    upper += bottom;
                    bottom = 1;

                    while (upper + bottom < height + y && !emptyString(str)) {
                        strip.addRegion("cell", new Rectangle(x, upper, width, bottom));

                        synchronized (lock) {
                            try {
                                strip.extractRegions(pdPage);
                            } catch (IOException ex) {
                                Logger.getLogger(Pdf2Excell.class.getName()).log(Level.SEVERE, null, ex);
                            }
                        }
                        str = strip.getTextForRegion("cell");
                        upper++;
                        //System.out.println("prova.Pdf2Excell.pdf2EX()DENTRO");
                    }
                } else {
                    bottom += 1;
                    //System.out.println("prova.Pdf2Excell.pdf2EX()UPPER;;"+upper+";;BOTTOM;;" + bottom);
                }
                if (upper == y) {
                    st.add(new Object[]{"", y + height, upper});
                }
                result = st;
            }
        } else {
            try {
                int half_rec = height / 2;
                Rectangle first_rec = new Rectangle(x, y, width, half_rec);
                Rectangle last_rec = new Rectangle(x, y + half_rec, width, height - half_rec);

                Search_Text first_search = new Search_Text(x, y, width, half_rec, pdPage, lock);
                Search_Text last_search = new Search_Text(x, y + half_rec, width, height - half_rec, pdPage, lock);

                Thread first = new Thread(first_search);
                Thread last = new Thread(last_search);

                strip.addRegion("cell", first_rec);
                synchronized (lock) {

                    strip.extractRegions(pdPage);

                }
                String temp = strip.getTextForRegion("cell");
                if (!emptyString(temp)) {
                    first.start();
                }

                strip.addRegion("cell", last_rec);
                synchronized (lock) {
                    strip.extractRegions(pdPage);
                }
                temp = strip.getTextForRegion("cell");
                if (!emptyString(temp)) {
                    last.start();
                }
                first.join();
                last.join();
                result = first_search.getResult();
                ArrayList<Object[]> temp_res = last_search.getResult();
                for (int i = 0; i < temp_res.size(); i++) {
                    result.add(temp_res.get(i));
                }
            } catch (InterruptedException | IOException ex) {
                Logger.getLogger(Pdf2Excell.class.getName()).log(Level.SEVERE, null, ex);

            }

        }

    }

这是错误消息:

Exception in thread "Thread-214418" java.lang.RuntimeException: java.io.IOException: RandomAccessBuffer already closed
    at org.apache.pdfbox.pdfparser.PDFStreamParser$1.tryNext(PDFStreamParser.java:198)
    at org.apache.pdfbox.pdfparser.PDFStreamParser$1.hasNext(PDFStreamParser.java:205)
    at org.apache.pdfbox.util.PDFStreamEngine.processSubStream(PDFStreamEngine.java:255)
    at org.apache.pdfbox.util.PDFStreamEngine.processSubStream(PDFStreamEngine.java:235)
    at org.apache.pdfbox.util.PDFStreamEngine.processStream(PDFStreamEngine.java:215)
    at org.apache.pdfbox.util.PDFTextStripper.processPage(PDFTextStripper.java:458)
    at org.apache.pdfbox.util.PDFTextStripperByArea.extractRegions(PDFTextStripperByArea.java:153)
    at prova.Pdf2Excell$Search_Text.run(Pdf2Excell.java:954)
    at java.lang.Thread.run(Thread.java:745)
Caused by: java.io.IOException: RandomAccessBuffer already closed
    at org.apache.pdfbox.io.RandomAccessBuffer.checkClosed(RandomAccessBuffer.java:325)
    at org.apache.pdfbox.io.RandomAccessBuffer.seek(RandomAccessBuffer.java:105)
    at org.apache.pdfbox.io.RandomAccessFileInputStream.read(RandomAccessFileInputStream.java:96)
    at java.io.BufferedInputStream.read1(BufferedInputStream.java:284)
    at java.io.BufferedInputStream.read(BufferedInputStream.java:345)
    at java.io.BufferedInputStream.fill(BufferedInputStream.java:246)
    at java.io.BufferedInputStream.read(BufferedInputStream.java:265)
    at java.io.FilterInputStream.read(FilterInputStream.java:83)
    at java.io.PushbackInputStream.read(PushbackInputStream.java:139)
    at org.apache.pdfbox.io.PushBackInputStream.read(PushBackInputStream.java:90)
    at org.apache.pdfbox.io.PushBackInputStream.peek(PushBackInputStream.java:68)
    at org.apache.pdfbox.pdfparser.PDFStreamParser.hasNextSpaceOrReturn(PDFStreamParser.java:560)
    at org.apache.pdfbox.pdfparser.PDFStreamParser.parseNextToken(PDFStreamParser.java:408)
    at org.apache.pdfbox.pdfparser.PDFStreamParser.parseNextToken(PDFStreamParser.java:374)
    at org.apache.pdfbox.pdfparser.PDFStreamParser.access$000(PDFStreamParser.java:49)
    at org.apache.pdfbox.pdfparser.PDFStreamParser$1.tryNext(PDFStreamParser.java:193)
    ... 8 more

最佳答案

PDFBox 是为每个文档的单线程使用而开发的，而 OP 使用多个线程访问同一文档。虽然这可能仍然有效(因为它是只读用例)，但适当的同步是必要的。

这种同步很可能会进一步减慢一切速度。因此，解决方案是完全使用不同的架构，即

take PDFTextStripper, override writeString(String text, List<TextPosition> textPositions), and collect the required information from that List<TextPosition> textPositions. TextPosition contains information on a small piece of text (usually a single letter, I think), including its position.

结果是

like 4 times faster.

关于读取 PDPage 时出现 java.io.IOException : RandomAccessBuffer already closed,，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35012948/

文章推荐： R: gsub 标点字符只出现在字符串的末尾

文章推荐： scala - 从父类(super class)型解析隐式参数

文章推荐： robotframework - 如何在 RIDE 中运行多个套件

文章推荐：依赖关系图的 d3.js 布局？

io - 内存映射 IO - IO 设备如何知道值已更改？
IO 设备如何知道属于它的内存中的值在memory mapped IO 中发生了变化？？例如，假设内存地址 0 专用于保存 VGA 设备的背景颜色。当我们更改 memory[0] 中的值时，VGA
ios - Facebook iOS iOS SDK登录错误
我目前正在开发一个使用Facebook sdk登录(通过FBLoginView)的iOS应用。一切正常，除了那些拥有较旧版本的facebook的人。当他们按下“使用Facebook登录”按钮时，他
ios - ios ios nsrange char从结束
假设我有: this - is an - example - with some - dashesNSRange将使用`rangeOfString:@“-”拾取“-”的第一个实例，但是如果我只想要最后
ios - 如何从card.io SDK获取国家名称？ -iOS
Card.io SDK提供以下详细信息: 卡号，有效期，月份，年份，CVV和邮政编码。如何从此SDK获取国家名称。 - (void)userDidProvideCreditCardInfo:(Car
ios - iOS 应用程序如何从网络服务下载图片并在安装过程中将它们安装在用户的 iOS 设备上？
iOS 应用程序如何从网络服务下载图片并在安装过程中将它们安装到用户的 iOS 设备上？可能吗？最佳答案您无法控制应用在用户设备上的安装，因此无法在安装过程中下载其他数据。只需在安装后首次启动应
ios - iOS 企业应用程序和 iOS 零售应用程序之间的区别
我曾经开发过一款企业版 iOS 产品，我们公司曾将其出售给大型企业，供他们的员工使用。该应用程序通过 AppStore 提供，企业用户获得了公司特定的配置文件(包含应用程序配置文件)以启用他们有权使
ios - Card.io ios 与本地化集成
我正在尝试将 Card.io SDK 集成到我的 iOS 应用程序中。我想为 CardIO ui 做一个简单的本地化，如更改取消按钮标题或“在此保留信用卡”提示文本。我在 github 上找到了这个
ios - Card.Io iOS 扫描名称
我正在使用 CardIOView 和 CardIOViewDelegate 类，没有可以设置为 YES 的 BOOL 来扫描 collectCardholderName。我可以看到它在 CardIOP
ios - 如何为最近的原生 ios 应用程序设置名称字段？ - iOS
我有一个集成了通话工具包的 voip 应用程序。每次我从我的 voip 应用程序调用时，都会在 native 电话应用程序中创建一个新的最近通话记录。我在 voip 应用程序中也有自定义联系人(电话应
ios - iOS 应用程序如何在应用程序打开时知道键盘是否已经在屏幕上(iOS 多任务处理)
iOS 应用程序如何知道应用程序打开时屏幕上是否已经有键盘？应用程序运行后，它可以接收键盘显示/隐藏通知。但是，如果应用程序在分屏模式下作为辅助应用程序打开，而主应用程序已经显示键盘，则辅助应用程序不
ios - iOS 上的图像 IO 错误
我在模拟器中收到以下错误: ImageIO: CGImageReadSessionGetCachedImageBlockData *** CGImageReadSessionGetCachedIm
ios - iOS 设备与非 iOS 设备通信
如 Apple 文档所示，可以通过 EAAccessory Framework 与经过认证的配件(由 Apple 认证)进行通信。但是我有点困惑，因为一些帖子告诉我它也可以通过 CoreBluetoo
ios - (iOS) 直接在 iOS 设备上查看日志消息的方式？
尽管现在的调试器已经很不错了，但有时找出应用程序中正在发生的事情的最好方法仍然是古老的 NSLog。当您连接到计算机时，这样做很容易； Xcode 会帮助弹出日志查看器面板，然后就可以了。当您不在办公
ios - Kontakt.io iOS - 按名称识别信标
在我的 iOS 应用程序中，我定义了一些兴趣点。其中一些有一个 Kontakt.io 信标的名称，它绑定(bind)到一个特定的 PoI(我的意思是通常贴在信标标签上的名称)。现在我想在附近发现信标，
ios - Trigger.io iOS 插件从回调返回数据
我正在为警报提示创建一个 trigger.io 插件。尝试从警报提示返回数据。这是我的代码: // Prompt + (void)show_prompt:(ForgeTask*)task{
ios - iOS 4、iOS 5 和 iOS 6 的推送通知有何不同？
您好，我是 Apple iOS 的新手。我阅读并搜索了很多关于推送通知的文章，但我没有发现任何关于 APNS 从 io4 到 ios 6 的新更新的信息。任何人都可以向我提供 APNS 如何在 ios
ios - iOS 8、iOS 9、iOS 10 和 iOS 11 上 UITabBar 的高度是多少？
UITabBar 的高度似乎在 iOS 7 和 8/9/10/11 之间发生了变化。我发布这个问题是为了让其他人轻松找到答案。那么:在 iPhone 和 iPad 上的 iOS 8/9/10/11
ios - 最佳实践。通过支持 iOS 5、iOS 6 和 iOS 7 UI，使 iOS 应用程序变得通用
我想我可以针对不同的 iOS 版本使用不同的 Storyboard。由于 UI 的差异，我将创建下一个 Storyboard: Main_iPhone.storyboard Main_iPad.st
ios - 如何使用 iOS 中的视觉控件在 ios 中选择音轨的一部分？
我正在写一些东西，我将使用设备的 iTunes 库中的一部分音轨来覆盖 2 个视频的组合，例如: AVMutableComposition* mixComposition = [[AVMutableC
ios - iOS 模拟器中存在头文件，但 iOS 设备上不存在...？
我创建了一个简单的 iOS 程序，可以顺利编译并在 iPad 模拟器上运行良好。当我告诉 XCode 4 使用我连接的 iPad 设备时，无法编译相同的程序。问题似乎是当我尝试使用附加的 iPad 时

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

读取 PDPage 时出现 java.io.IOException : RandomAccessBuffer already closed,