java - 如何使用 Zstd-jni 和字节缓冲区解压缩大文件-6ren

java - 如何使用 Zstd-jni 和字节缓冲区解压缩大文件

转载作者：搜寻专家更新时间：2023-11-01 02:57:10

26

4

我正在尝试解压缩许多 40 MB 以上的文件，因为我使用 ByteBuffers 和 Channels 并行下载它们。与使用 Streams 相比，使用 Channels 获得了更高的吞吐量，我们需要这是一个非常高的吞吐量系统，因为我们每天需要处理 40 TB 的文件，而这部分过程目前是瓶颈。这些文件用 zstd-jni 压缩. Zstd-jni 有用于解压缩字节缓冲区的 api，但是当我使用它们时出现错误。如何使用 zstd-jni 一次解压缩一个字节缓冲区？

我在他们的测试中找到了这些例子，但除非我遗漏了什么，否则使用 ByteBuffers 的例子似乎假设整个输入文件都适合一个 ByteBuffer: https://github.com/luben/zstd-jni/blob/master/src/test/scala/Zstd.scala

下面是我压缩和解压文件的代码。压缩代码运行良好，但解压代码随后失败并出现 -70 错误。

public static long compressFile(String inFile, String outFolder, ByteBuffer inBuffer, ByteBuffer compressedBuffer, int compressionLevel) throws IOException {
    File file = new File(inFile);
    File outFile = new File(outFolder, file.getName() + ".zs");
    long numBytes = 0l;

    try (RandomAccessFile inRaFile = new RandomAccessFile(file, "r");
        RandomAccessFile outRaFile = new RandomAccessFile(outFile, "rw");
                FileChannel inChannel = inRaFile.getChannel();
                FileChannel outChannel = outRaFile.getChannel()) {
        inBuffer.clear();
        while(inChannel.read(inBuffer) > 0) {
            inBuffer.flip();
            compressedBuffer.clear();

            long compressedSize = Zstd.compressDirectByteBuffer(compressedBuffer, 0, compressedBuffer.capacity(), inBuffer, 0, inBuffer.limit(), compressionLevel);
            numBytes+=compressedSize;
            compressedBuffer.position((int)compressedSize);
            compressedBuffer.flip();
            outChannel.write(compressedBuffer);
            inBuffer.clear(); 
        }
    }

    return numBytes;
}

public static long decompressFile(String originalFilePath, String inFolder, ByteBuffer inBuffer, ByteBuffer decompressedBuffer) throws IOException {
    File outFile = new File(originalFilePath);
    File inFile = new File(inFolder, outFile.getName() + ".zs");
    outFile = new File(inFolder, outFile.getName());

    long numBytes = 0l;

    try (RandomAccessFile inRaFile = new RandomAccessFile(inFile, "r");
        RandomAccessFile outRaFile = new RandomAccessFile(outFile, "rw");
                FileChannel inChannel = inRaFile.getChannel();
                FileChannel outChannel = outRaFile.getChannel()) {

        inBuffer.clear();

        while(inChannel.read(inBuffer) > 0) {
            inBuffer.flip();
            decompressedBuffer.clear();
            long compressedSize = Zstd.decompressDirectByteBuffer(decompressedBuffer, 0, decompressedBuffer.capacity(), inBuffer, 0, inBuffer.limit());
            System.out.println(Zstd.isError(compressedSize) + " " + compressedSize);
            numBytes+=compressedSize;
            decompressedBuffer.position((int)compressedSize);
            decompressedBuffer.flip();
            outChannel.write(decompressedBuffer);
            inBuffer.clear(); 
        }
    }

    return numBytes;
}

最佳答案

是的，您在示例中使用的静态方法假定整个压缩文件适合一个 ByteBuffer。据我了解您的要求，您需要使用 ByteBuffers 进行流式解压缩。 ZstdDirectBufferDecompressingStream 已经提供了这个:

https://static.javadoc.io/com.github.luben/zstd-jni/1.3.7-1/com/github/luben/zstd/ZstdDirectBufferDecompressingStream.html

这是一个如何使用它的例子(来自测试):

https://github.com/luben/zstd-jni/blob/master/src/test/scala/Zstd.scala#L261-L302

但您还必须对其进行子类化并覆盖“refill”方法。

编辑:这是我刚刚添加的一个新测试，它与您的问题具有完全相同的结构 - 在 channel 之间移动数据:

https://github.com/luben/zstd-jni/blob/master/src/test/scala/Zstd.scala#L540-L586

关于java - 如何使用 Zstd-jni 和字节缓冲区解压缩大文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52953256/

26

4

0

文章推荐： java - 流或 for 循环

文章推荐： javascript - 日期=新日期()； date.valueOf() 与 Date.now()

文章推荐： java - 使用 TCP 处理多线程

math - 旋转椭圆的 y 解
我希望通过扫描线为 x 的每个值找到 y 的值来绘制椭圆。对于普通椭圆，公式很容易找到:y = Sqrt[b^2 - (b^2 x^2)/a^2] 但是当椭圆的轴旋转时，我一直无法弄清楚如何计算 y
algorithm - 如何在欠定的线性方程组中找到 "partial"解？
假设我有这个矩阵: 1 1 1 | 1 0 0 1 | 1 这个系统显然有无限的解决方案。 x1 = -x2 x3 = 1 x1 依赖于 x2，x2 是免费的，但我感兴趣的是 x3。是否有一种算法可以
neural-network - 如何使用神经网络解决 "soft"解？
我正在考虑使用神经网络在我正在构建的太空射击游戏中为我的敌人提供动力，我想知道；当网络没有一个明确的好的输出集时，你如何训练神经网络？最佳答案我目前正在研究神经网络，如果没有明确定义的输入和输出编
embedded - 对于这种情况，什么是好的(解)压缩例程
我需要一个针对受限资源环境(例如具有以下特征的二进制(十六进制数据)嵌入式系统)进行优化的快速解压缩例程: 数据面向 8 位(字节)(数据总线为 8 位宽)。字节值的范围并不统一为 0 - 0xFF
java - (解)压缩 base64 字符串
PHP代码: $txt="John has cat and dog."; //plain text $txt=base64_encode($txt); //base64 encode $txt=gzd
c - 找到方程的 (x,y) 解
程序从用户那里接收到一个正数k，并且应该检查方程有多少解 3*x+5*y=k 在许多解决方案的情况下，该函数采用所有解决方案中 |x-y| 的较大绝对值。如果只有一种解决方案，它会打印出来。例如: 如
python - odeint 的非线性 ODE 解
我必须求解以下微分方程: 或如果没有 F_1 术语，代码就很简单。但我无法用包含 F_1 项来解决它，尽管我知道解决方案应该看起来像阻尼谐振。 from scipy.integrate import
algorithm - 找到前缀和变化的 O(n) 解
我知道这个问题是前缀和的变体，我只是在设置它时遇到了一些困难。最佳答案定义: P[i] = A[i+1] + A[i+2] + ... + A[n] Q[i] = A[1] + ... + A[i
java - 使用 NIO(解)压缩文件
在许多在线示例中，文件在 Java 中使用编码缓冲区进行(解)压缩。然而，对于 NIO，无需选择一个好的缓冲区大小。我找到了文件和套接字的示例，但是是否有用于压缩输入的 NIO channel (例如
python - 优化三对角系数矩阵的 A*x = B 解
我有一个形式为 A*x = B 的方程组，其中 [A] 是一个三对角系数矩阵。使用 Numpy 求解器 numpy.linalg.solve 我可以求解 x 的方程组。请参阅下面的示例，了解我如何开
java - 最长递增子序列的潜在 O(n) 解
我试图回答这个问题，只使用递归(动态编程) http://en.wikipedia.org/wiki/Longest_increasing_subsequence 从这篇文章中，我意识到最有效的现有解
powershell - Add-Type -ReferencedAssemblies失败，无法加载或找到程序集。解
解决此问题的方法是，按照我发帖的其中一项建议，将DLL添加到GAC中。正如我在我的一份答复中所指出的那样，在需要运行此过程的环境中，可伸缩性将不可用。因此，不能选择简单的解决方案。为了解决这个问题，我
audio - 是否有 AAC-LC(解)压缩的规范？
是否有专门描述 AAC-LC 标准的规范，以及实现编解码器的现实目标，而不是通用编解码器，而是针对特定 AAC-LC 格式，具有预定义的 channel 数和采样率？是否有一些针对 AAC-LC 的
vhdl - 使用通用来确定 VHDL 中的(解)复用器大小？
我想使用通用的“p”来定义多路复用器将有多少输出。输入和所有输出均为 1 位。输出、控制和输入可以很简单，例如: signal control : std_logic_vector(log 2 p
javascript - 定位转换后的 div(三 Angular 解)
我正在尝试在 javascript 中使用一些三 Angular 函数来定位一些菱形 div，但似乎我的逻辑在某处失败了。你可以看到我尝试了这个公式:pos + trig * dimension。我
algorithm - 缺少整数变化 - 需要 O(n) 解
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 4 年前。 Improve this qu
java - 该对象与 JSON/XML 之间的(解)编码可能会破坏到什么程度
我一直在考虑这两个 JSON 库: 谷歌 Gson JSON.Simple XStream Google Gson 非常棒，它可以序列化具有无参数构造函数的类对象。 JSON.Simple 非常简洁，
gekko - 使用 Gekko 和 Python 拟合数据的数值 ODE 解
使用 Gekko 拟合数据的数值 ODE 解。嗨，大家好! 我想知道是否可以使用 GEKKO 拟合 ODE 的系数。我尝试复制 example given here 失败. 这是我想出的(但有缺陷
java - US-ASCII 字符串(解)压缩到/从字节数组(7 位/字符)
众所周知，ASCII使用7位来编码字符，所以用来表示文本的字节数总是小于文本字母的长度例如: StringBuilder text = new StringBuilder(); In
python - 如何获得与 Matlab 的 'special' (mldivide) 运算符使用 numpy/scipy 返回的欠定线性系统相同的 `A\b` 解？
我找到了一个 link其中显示了一个示例，当线性方程组有无限多个解时，Matlab mldivide 运算符 (\) 给出“特殊”解。例如: A = [1 2 0; 0 4 3]; b = [8;

首页

博学

6Ren·AI

商城

java - 如何使用 Zstd-jni 和字节缓冲区解压缩大文件