java - 解压缩到 ByteArrayOutputStream - 为什么我会收到 EOFException？-6ren

java - 解压缩到 ByteArrayOutputStream - 为什么我会收到 EOFException？

转载作者：行者123 更新时间：2023-12-02 09:12:09

25

4

我一直在尝试创建一个 Java 程序，该程序将从在线 API 读取 zip 文件，将它们解压缩到内存中(而不是文件系统中)，然后将它们加载到数据库中。 由于解压缩的文件需要按特定顺序加载到数据库中，因此我必须在加载任何文件之前解压缩所有文件。

我基本上用了another question StackOverflow 上作为如何做到这一点的模型。使用 util.zip 中的 ZipInputStream 我能够使用较小的 ZIP(压缩 0.7MB ~ 解压 4MB)来完成此操作，但是当我遇到更大的文件(压缩 25MB，解压后135MB)，最大的两个文件没有读入内存。我什至无法检索这些较大文件(8MB 和 120MB，后者构成 zip 文件中的绝大多数数据)的 ZipEntry。没有抛出任何异常，我的程序继续执行，直到它尝试访问无法写入的解压文件，并抛出 NullPointerException。

我正在使用 Jsoup 从网上获取 zip 文件。

有谁有这方面的经验并可以指导我为什么无法检索 zip 文件的完整内容吗？

下面是我正在使用的代码。我正在 HashMap 中将解压缩的文件作为 InputStream 收集，当不再有 ZipEntry 时，程序应该停止寻找 ZipEntry当没有更多的时候。

    private Map<String, InputStream> unzip(ZipInputStream verZip) throws IOException {

        Map<String, InputStream> result = new HashMap<>();

        while (true) {
            ZipEntry entry;
            byte[] b = new byte[1024];
            ByteArrayOutputStream out = new ByteArrayOutputStream();
            int l;

            entry = verZip.getNextEntry();//Might throw IOException

            if (entry == null) {
                break;
            }

            try {
                while ((l = verZip.read(b)) > 0) {
                    out.write(b, 0, l);
                }
                out.flush();
            }catch(EOFException e){
                e.printStackTrace();
            }
            catch (IOException i) {
                System.out.println("there was an ioexception");
                i.printStackTrace();
                fail();
            }
            result.put(entry.getName(), new ByteArrayInputStream(out.toByteArray()));
        }
        return result;
    }

如果我的程序利用文件系统来解压缩文件，我的情况可能会更好吗？

最佳答案

事实证明，Jsoup 是问题的根源。使用 Jsoup 连接获取二进制数据时，从连接读取的字节数是有限制的。默认情况下，此限制为 1048576，即 1 兆字节。因此，当我将 Jsoup 中的二进制数据输入 ZipInputStream 时，生成的数据在 1 MB 后被截断。此限制 maxBodySizeBytes 可以在 org.jsoup.helper.HttpConnection.Request 中找到。

        Connection c = Jsoup.connect("example.com/download").ignoreContentType(true);
        //^^returns a Connection that will only retrieve 1MB of data
        InputStream oneMb = c.execute().bodyStream();
        ZipInputStream oneMbZip = new ZipInputStream(oneMb);

尝试解压缩截断的 oneMbZip 导致我得到 EOFException

使用下面的代码，我能够将 Connection 的字节限制更改为 1 GB (1073741824)，然后能够检索 zip 文件，而不会遇到 EOFException.

        Connection c = Jsoup.connect("example.com/download").ignoreContentType(true);
        //^^returns a Connection that will only retrieve 1MB of data
        Connection.Request theRequest = c.request();
        theRequest.maxBodySize(1073741824);
        c.request(theRequest);//Now this connection will retrieve as much as 1GB of data
        InputStream oneGb = c.execute().bodyStream();
        ZipInputStream oneGbZip = new ZipInputStream(oneGb);

请注意，maxBodySizeBytes 是一个 int，其上限为 2,147,483,647，即略低于 2GB。

关于java - 解压缩到 ByteArrayOutputStream - 为什么我会收到 EOFException？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59313819/

25

4

0

文章推荐： java - Spring 找不到要 Autowiring 的服务或存储库 bean

文章推荐： java - Assert + Selenium 4 相对定位器

文章推荐： java - 如何模拟使用供应商创建并使用两次的流？

math - 旋转椭圆的 y 解
我希望通过扫描线为 x 的每个值找到 y 的值来绘制椭圆。对于普通椭圆，公式很容易找到:y = Sqrt[b^2 - (b^2 x^2)/a^2] 但是当椭圆的轴旋转时，我一直无法弄清楚如何计算 y
algorithm - 如何在欠定的线性方程组中找到 "partial"解？
假设我有这个矩阵: 1 1 1 | 1 0 0 1 | 1 这个系统显然有无限的解决方案。 x1 = -x2 x3 = 1 x1 依赖于 x2，x2 是免费的，但我感兴趣的是 x3。是否有一种算法可以
neural-network - 如何使用神经网络解决 "soft"解？
我正在考虑使用神经网络在我正在构建的太空射击游戏中为我的敌人提供动力，我想知道；当网络没有一个明确的好的输出集时，你如何训练神经网络？最佳答案我目前正在研究神经网络，如果没有明确定义的输入和输出编
embedded - 对于这种情况，什么是好的(解)压缩例程
我需要一个针对受限资源环境(例如具有以下特征的二进制(十六进制数据)嵌入式系统)进行优化的快速解压缩例程: 数据面向 8 位(字节)(数据总线为 8 位宽)。字节值的范围并不统一为 0 - 0xFF
java - (解)压缩 base64 字符串
PHP代码: $txt="John has cat and dog."; //plain text $txt=base64_encode($txt); //base64 encode $txt=gzd
c - 找到方程的 (x,y) 解
程序从用户那里接收到一个正数k，并且应该检查方程有多少解 3*x+5*y=k 在许多解决方案的情况下，该函数采用所有解决方案中 |x-y| 的较大绝对值。如果只有一种解决方案，它会打印出来。例如: 如
python - odeint 的非线性 ODE 解
我必须求解以下微分方程: 或如果没有 F_1 术语，代码就很简单。但我无法用包含 F_1 项来解决它，尽管我知道解决方案应该看起来像阻尼谐振。 from scipy.integrate import
algorithm - 找到前缀和变化的 O(n) 解
我知道这个问题是前缀和的变体，我只是在设置它时遇到了一些困难。最佳答案定义: P[i] = A[i+1] + A[i+2] + ... + A[n] Q[i] = A[1] + ... + A[i
java - 使用 NIO(解)压缩文件
在许多在线示例中，文件在 Java 中使用编码缓冲区进行(解)压缩。然而，对于 NIO，无需选择一个好的缓冲区大小。我找到了文件和套接字的示例，但是是否有用于压缩输入的 NIO channel (例如
python - 优化三对角系数矩阵的 A*x = B 解
我有一个形式为 A*x = B 的方程组，其中 [A] 是一个三对角系数矩阵。使用 Numpy 求解器 numpy.linalg.solve 我可以求解 x 的方程组。请参阅下面的示例，了解我如何开
java - 最长递增子序列的潜在 O(n) 解
我试图回答这个问题，只使用递归(动态编程) http://en.wikipedia.org/wiki/Longest_increasing_subsequence 从这篇文章中，我意识到最有效的现有解
powershell - Add-Type -ReferencedAssemblies失败，无法加载或找到程序集。解
解决此问题的方法是，按照我发帖的其中一项建议，将DLL添加到GAC中。正如我在我的一份答复中所指出的那样，在需要运行此过程的环境中，可伸缩性将不可用。因此，不能选择简单的解决方案。为了解决这个问题，我
audio - 是否有 AAC-LC(解)压缩的规范？
是否有专门描述 AAC-LC 标准的规范，以及实现编解码器的现实目标，而不是通用编解码器，而是针对特定 AAC-LC 格式，具有预定义的 channel 数和采样率？是否有一些针对 AAC-LC 的
vhdl - 使用通用来确定 VHDL 中的(解)复用器大小？
我想使用通用的“p”来定义多路复用器将有多少输出。输入和所有输出均为 1 位。输出、控制和输入可以很简单，例如: signal control : std_logic_vector(log 2 p
javascript - 定位转换后的 div(三 Angular 解)
我正在尝试在 javascript 中使用一些三 Angular 函数来定位一些菱形 div，但似乎我的逻辑在某处失败了。你可以看到我尝试了这个公式:pos + trig * dimension。我
algorithm - 缺少整数变化 - 需要 O(n) 解
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 4 年前。 Improve this qu
java - 该对象与 JSON/XML 之间的(解)编码可能会破坏到什么程度
我一直在考虑这两个 JSON 库: 谷歌 Gson JSON.Simple XStream Google Gson 非常棒，它可以序列化具有无参数构造函数的类对象。 JSON.Simple 非常简洁，
gekko - 使用 Gekko 和 Python 拟合数据的数值 ODE 解
使用 Gekko 拟合数据的数值 ODE 解。嗨，大家好! 我想知道是否可以使用 GEKKO 拟合 ODE 的系数。我尝试复制 example given here 失败. 这是我想出的(但有缺陷
java - US-ASCII 字符串(解)压缩到/从字节数组(7 位/字符)
众所周知，ASCII使用7位来编码字符，所以用来表示文本的字节数总是小于文本字母的长度例如: StringBuilder text = new StringBuilder(); In
python - 如何获得与 Matlab 的 'special' (mldivide) 运算符使用 numpy/scipy 返回的欠定线性系统相同的 `A\b` 解？
我找到了一个 link其中显示了一个示例，当线性方程组有无限多个解时，Matlab mldivide 运算符 (\) 给出“特殊”解。例如: A = [1 2 0; 0 4 3]; b = [8;

首页

博学

6Ren·AI

商城

java - 解压缩到 ByteArrayOutputStream - 为什么我会收到 EOFException？