java - 如何使用 Commons compress 打包太大并导致内存不足崩溃的文件？-6ren

java - 如何使用 Commons compress 打包太大并导致内存不足崩溃的文件？

转载作者：行者123 更新时间：2023-12-02 00:16:38

32

4

在下面的代码中，如果我将 (Apache) Commons 压缩单个文件大小为几 GB，它将崩溃，因为它耗尽了我的所有内存。

我可以让它一次读取然后写入文件的一小部分吗？我一直在研究分块，但我不知道如何做到这一点，以便我可以在将文件写入 .tar 格式后将文件重新组合在一起。

处理此处任何大小的支持文件的最佳方法是什么？

FileOutputStream fileOutputStream = new FileOutputStream("output.tar");
BufferedOutputStream bufferedOutputStream = new BufferedOutputStream(fileOutputStream);
GzipCompressorOutputStream gzipOutputStream = new GzipCompressorOutputStream(bufferedOutputStream);
TarArchiveOutputStream tarArchiveOutputStream = new TarArchiveOutputStream(gzipOutputStream)) {

tarArchiveOutputStream.setBigNumberMode(TarArchiveOutputStream.BIGNUMBER_POSIX);
tarArchiveOutputStream.setLongFileMode(TarArchiveOutputStream.LONGFILE_GNU);

File currentFile = new File("Huge_MultiGB_File.txt");
String relativeFilePath = currentFile.getPath();
TarArchiveEntry tarEntry = new TarArchiveEntry(currentFile, relativeFilePath);
tarEntry.setSize(currentFile.length());
tarArchiveOutputStream.putArchiveEntry(tarEntry);
tarArchiveOutputStream.write(IOUtils.toByteArray(new FileInputStream(currentFile)));
tarArchiveOutputStream.closeArchiveEntry();

最佳答案

您必须写入文件的一小部分并将其写入循环中的输出，而不是首先使用 IOUtils 将整个文件读取到内存

它或多或少是这样完成的:

FileInputStream source=new FileInputStream(....somefile);
tarArchiveOutputStream; prepared to w writing

byte[] buff = new byte[1024*10]; //10kb buff
int numBytesRead = -1; //number of bytes read


while(( numBytesRead = source.read(buff)) > 0 ) {
    // while source has bytes, read from source and write
    // the same number of bytes to the tar outputstream
    tarArchiveOutputStream.write(buff, 0, numBytesRead);
   }
}

关于java - 如何使用 Commons compress 打包太大并导致内存不足崩溃的文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58085992/

32

4

0

文章推荐： fiddler - 为什么 "request body"在fiddler中的背景是红色的？

文章推荐： magento - 在 AWS Elastic Beanstalk 上部署后运行 PHP 脚本

文章推荐： mongodb - 如何检查Mongodb是否正确安装

文章推荐： selenium - 如何正确使用XPath previous-sibling

common-lisp - 为什么没有用 Common Lisp 编写的 Common Lisp 实现？
最近，我开始学习 cuis-smalltalk，我没有意识到与 CLOS 相比，Smalltalk 的 OOP 有多么深刻和深入(我使用的是 Ruby)。我了解到 Smalltalk 是一个自己实现的
maven - Maven依赖项org.apache.commons:commons-io和commons-io:commons-io有什么区别？
Maven存储库包含以下两个依赖项：org.apache.commons:commons-io:1.3.2和commons-io:commons-io:1.3.2。有什么区别，我应该在pom.xml中
java - 在 Maven 中，它的 "org.apache.commons.collections:commons-collections"与 "commons-collections:commons-collections"相同吗？
我刚刚在我的 pom 文件中看到 Apache commons-collections 有两个不同的组 ID: commons-collections commons-collect
common-lisp - common lisp中的串口通信
Windows 上的 Common Lisp 中是否有用于串行端口通信的库？最佳答案下面是一些使用 SBCL 外部函数 POSIX 调用实现串行通信的函数。它不如完整的库好，但我解决了根据此协议(
common-lisp - common-lisp中有关可选参数的错误
SBCL 64位，1.1.7 如果我想创建一个包并使用package:CL中的一些符号，我将创建一个像这样的包: (defpackage :foo (:import-from :cl
common-lisp - Common Lisp的静态代码分析工具？
我正在忙着学习Common Lisp，并且正在寻找一种静态代码分析工具，该工具将帮助我开发更好的样式并避免陷入常见的陷阱。我找到了Lisp Critic，看起来不错，但我希望有人可以推荐其他一些工具
common-lisp - Common Lisp共享结构困惑
我正在阅读《Practical Common Lisp》一书，在第 22 章第 284 页的脚注 5 中，我看到一段让我感到困惑的代码片段。我知道变量list和tail有一个共同的列表结构，但我很困
common-lisp - Common Lisp 的复制树 : Which objects will be referenced in common by the original and the copy?
我正在阅读 Practical Common Lisp ，并且对 Lisp 的 COPY-TREE 函数有疑问。书中给出了调用的例子 (copy-tree '( '(1 2) '(3 4) '(5
groovy - geb 使用葡萄 - 下载失败 : commons-codec#commons-codec;1. 6!commons-codec.jar
我正在尝试使用 user guide 中的抓取示例运行 geb用于引入依赖项: $ cat my.groovy @Grapes([ @Grab("org.gebish:geb-core:0.9
common-lisp - Common Lisp 中的重复案例陈述
这里一定有更好的方法，对吧？ (format t "Enter your age: ~%") (defun age-case (age) (case age (1 (format t "Y
common-lisp - Common Lisp中do循环中的多值绑定(bind)
如何在 do 循环中绑定(bind)从函数返回的多个值？以下显然是非常错误的，但是这样的事情可能吗？ (do (((x y z) (3-val-fn) (3-val-fn))) ((equa
common-lisp - Common Lisp 中分数的相等性检查
所以我正在学习 Lisp 做分数，这很棒。但是为什么这个相等性检查返回 NIL: * (= 0.2 1/5) NIL ...如果转换为 float 则返回 True第一的: * (=
common-lisp - Common Lisp - 如何判断一个路径名是指向一个普通文件还是一个目录？
是否可以“统计”一个文件并找到它的文件类型 - 常规或目录？最佳答案阅读关于 portable pathname library 的章节来自 Peter Seibel 的 Practical Co
common-lisp - Common Lisp 源代码组织
我是 CL 的新手，正在使用 AllegroCL。我试图弄清楚如何组织我的源代码以满足以下要求: 我想阻止 src 代码包含我的测试套件。我想以可移植的方式声明项目依赖项(src 和 test de
common-lisp - Common Lisp 的最新标准
谁能告诉我最新的标准化 Common Lisp 的文档是什么(应该遵循各种实现的文档)？我问是因为我可以在网上找到很多关于 CL 的书都来自 90 年代，所以我想知道它们是否是最新的。我也来自于在 R
common-lisp - Common Lisp 中函数的作用域
假设我必须定义一个名为foo 的函数。假设，为了定义它，我使用了一些辅助函数 foo1, foo2, foo3, ... 当我加载包含这些函数的文件时，我可以从顶层使用所有这些函数。相反，我只想从顶层
common-lisp - Common Lisp 循环工具中的语法错误
这拒绝编译。注释掉 (setf roll行让它编译。然而，(setf roll...本身在 REPL 中正确评估。程序: ;; loop n times ; sum up number of hit
common-lisp - Common Lisp 嵌套结构变化
我目前正在学习 Common Lisp，并尝试将一些 JSON 发送到网络服务。我要发送的 JSON 以类似于以下的结构表示: ((:ITEMS ((:KEY . "value1") (:IGNO
common-lisp - 使用波浪号将文件名扩展到其完整路径(Common Lisp)
我有一个带波浪号的目录名(作为字符串):~/projects . 我想得到它的完整路径:/home/user/projects .我怎么做？目标是将它传递给 uiop:run-program ，这
common-lisp - Common Lisp 中格式指令的安全解析
我想从输入文件中读取一个字符串(用户可能修改也可能没有修改)。我想将此字符串视为使用固定数量的参数调用的格式指令。但是，我知道某些格式指令(特别是我想到的 ~/)可能会用于注入(inject)函数调用

首页

博学

6Ren·AI

商城

java - 如何使用 Commons compress 打包太大并导致内存不足崩溃的文件？