java - ZipEntry.STORED 对于已经压缩的文件？-6ren

java - ZipEntry.STORED 对于已经压缩的文件？

转载作者：搜寻专家更新时间：2023-11-01 03:34:34

25

4

我正在使用 ZipOutputStream 来压缩一堆文件，这些文件混合了已压缩的格式以及许多大型高度可压缩格式(如纯文本)。

大多数已经压缩的格式都是大文件，花费 CPU 和内存重新压缩它们是没有意义的，因为它们永远不会变小，有时在极少数情况下会变大。

当我检测到预压缩文件时，我正在尝试使用 .setMethod(ZipEntry.STORED) 但它提示我需要提供 size、compressedSize 和 crc 对于那些文件。

我可以通过以下方法让它工作，但这需要我读取文件两次。一次计算 CRC32，然后再次实际将文件复制到 ZipOutputStream。

// code that determines the value of method omitted for brevity
if (STORED == method)
{
    fze.setMethod(STORED);
    fze.setCompressedSize(fe.attributes.size());
    final HashingInputStream his = new HashingInputStream(Hashing.crc32(), fis);
    ByteStreams.copy(his,ByteStreams.nullOutputStream());
    fze.setCrc(his.hash().padToLong());
}
else
{
    fze.setMethod(DEFLATED);
}
zos.putNextEntry(fze);
ByteStreams.copy(new FileInputStream(fe.path.toFile()), zos);
zos.closeEntry();

有没有一种方法可以提供这些信息而无需两次读取输入流？

最佳答案

简答:

考虑到我必须解决这个问题的时间，我无法确定只读取一次文件并使用标准库计算 CRC 的方法。

我确实找到了一个优化方法，它平均减少了大约 50% 的时间。

我预先计算要与 ExecutorCompletionService 并发存储的文件的 CRC 限制为 Runtime.getRuntime().availableProcessors() 并等待它们完成。其有效性因需要计算 CRC 的文件数量而异。文件越多， yield 越大。

然后在 .postVisitDirectories() 中，我将 ZipOutputStream 包裹在来自 PipedInputStream/PipedOutputStream 的 PipedOutputStream 周围对在临时 Thread 上运行以将 ZipOutputStream 转换为 InputStream 我可以传递到 HttpRequest 以上传ZipOutputStream 的结果到远程服务器，同时串行写入所有预先计算的 ZipEntry/Path 对象。

目前这已经足够好，可以处理 300+GB 的即时需求，但是当我开始处理 10TB 的工作时，我会考虑解决它并尝试在不增加太多复杂性的情况下找到更多优势。

如果我在时间上想出了更好的方法，我会用新的实现更新这个答案。

长答案:

我最终写了一个干净的房间 ZipOutputStream 支持多部分 zip 文件、智能压缩级别与 STORE 并且能够计算 CRC当我读取然后在流的末尾写出元数据时。

为什么 ZipOutputStream.setLevel() 交换不起作用:

The ZipOutputStream.setLevel(NO_COMPRESSION/DEFAULT_COMPRESSION) hack is not a viable approach. I did extensive tests on hundreds of gigs of data, thousands of folders and files and the measurements were conclusive. It gains nothing over calculating the CRC for the STORED files vs compressing them at NO_COMPRESSION. It is actually slower by a large margin!

In my tests the files are on a network mounted drive so reading the files already compressed files twice over the network to calculate the CRC then again to add to the ZipOutputStream was as fast or faster than just processing all the files once as DEFLATED and changing the .setLevel() on the ZipOutputStream.

There is no local filesystem caching going on with the network access. This is a worse case scenario, processing files on the local disk will be much much faster because of local filesystem caching.

So this hack is a naive approach and is based on false assumptions. It is processing the data through the compression algorithm even at NO_COMPRESSION level and the overhead is higher than reading the files twice.

关于java - ZipEntry.STORED 对于已经压缩的文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35141580/

25

4

0

文章推荐： ios - -[不是类型 _cfTypeID] : message sent to deallocated instance

文章推荐： ios - NSURLRequest 什么时候超时？

Java - 附加新的 ZipEntry 时 ZipEntries 被删除
我正在尝试创建一种将 java.io.File 复制到 java.util.zip.ZipFile 的方法。为此，我首先打开 ZipFile 的 java.util.zip.ZipOutputStre
java - 枚举和 Enumeration？
枚举和 Enumeration？如果是，有什么区别？最佳答案当您拥有其中之一时，在您可以做什么方面没有实际区别，因为类型参数仅用于“输出”位置。另一方面，在您可以使用它们方面有很大的不同。假设
java - ZipEntry.isDirectory() 和 Enumeration 只看到目录内容，看不到目录
我正在努力查看 .zip 文件以确认所有包含的文件都已正确命名，但遇到了一些麻烦。这是文件层次结构: -.zip -dir -file1 -file2 -file3 -
java - 将 csv 数据作为 zipentry 对象移动到 zip 存档 - 构造函数 ZipEntry(Path) 未定义
我的 springboot 应用程序中有这个方法，它在 custom_users 目录中生成 3 个 CSV 文件(与员工、客户和建筑物相关)，其名称后附加了时间戳，如下所示。以下代码对我来说效果很好
java - ZipEntry 到字节数组
我试图将 ZipEntry 对象序列化为字节数组，但我知道这是不可能的。这就是我正在做的事情: ZipEntry entryToDocumentum = null; for (ZipEntry on
java - ZipEntry 的默认大小是多少
如果我创建 ZipEntry 时未指定其大小，则默认大小是多少？我需要指定它的尺寸吗？我们什么时候设置尺寸？我看到 ZipEntry 有一个 setSize(long size) 方法。 ZipEnt
java - 如何递归地循环遍历 ZipEntry
我的 zip 文件中有一个 zip 文件。所以我需要递归解压缩。输入以字节数组的形式出现 zis = new ZipInputStream(new ByteArrayInputStream((byte
java - 覆盖 ZipEntry
简单的问题我正在将一系列文本文件写入 zip，只需将文件输出流包装在 zipoutputstream 中，然后包装在 printwriter 中。 public static int saveDat
java - ZipEntry 的路径名的文件分隔符？
ZIP 条目存储条目的完整路径名，因为(我确信下一部分)ZIP 存档没有组织为目录。元数据包含有关如何存储文件(在目录内)的信息。如果我在 Windows 中创建 ZIP 文件，当我在另一个操作系统
java - ZipEntry 的路径名称的文件分隔符？
ZIP 条目存储条目的完整路径名，因为(我确信下一部分)ZIP 存档不是按目录组织的。元数据包含有关文件应该如何存储(在目录内)的信息。如果我在 Windows 中创建一个 ZIP 文件，当我在另一
java - 如何访问位于 ZipEntry 内的文件夹内的文件
抱歉标题困惑。基本上我有一个 ZipFile，里面有一堆 .txt 文件，但也有一个文件夹。我在下面显示的代码是在 zip 条目中找到该文件夹。这部分我做得很好。问题是，一旦我找到该文件夹，它
Java ZipInputStream 没有读取整个 ZipEntry
我正在尝试从 ZIP 存档中读取 XML 文件。相关代码如下: ZipInputStream zis = new ZipInputStream(is); ZipEntry entry = zis.ge
java - 如何在 ZipEntry 中书写汉字？
我想将字符串(中文文本)导出到 zip 文件内的 CSV 文件。哪里需要将编码设置为UTF-8？或者我应该采取什么方法(基于下面的代码)在导出的CSV文件中显示中文字符？这是我目前拥有的代码。
java - 更改 ZipEntry 的根目录？
我的项目有一些已修改并添加到 zip 文件中的 xml 模板。问题是模板都在模板文件夹中，但 zip 文件的预期格式是将它们直接放在根目录中。项目层次结构:模板/blah.xml 预期的 zip 文
Java ZipInputStream 没有读取整个 ZipEntry
我正在尝试从 ZIP 存档中读取 XML 文件。相关代码如下: ZipInputStream zis = new ZipInputStream(is); ZipEntry entry = zis.ge
java - ZipEntry.getTime() 不可预测的结果
我正在 Android 上试验 ZipEntry.getTime()。但是，我在不同设备上看到相同的 zip 和文件有不同的结果:1419755996000,1419752396000,1419730
java - 更改 ZipEntry 的权限
我正在尝试使用 java.util.zip API 生成 zip 文件，但没有找到任何方法来设置 ZipEntry 的权限。。有想法吗？最佳答案使用java.util.zip是不可能的。尝试 A
java: 更改 ZipEntry 名称
我有以下代码将文本文件写入 zip: FileOutputStream fOut = new FileOutputStream(fullFilename, false); BufferedOutput
Java ObjectOutputStream 未写入 ZipEntry
我正在尝试使用 ObjectOutputStream 将对象序列化为 ZipEntry，但是它似乎没有写入任何内容，因为当我打印生成的字节数组时，它显示为 null。我尝试使用 ZipOutputSt
java - 如何获取 ZipEntry 的简单名称？
我想知道是否可以从 ZipEntry 中获取简单名称... 当我调用 Entry 的 getName() 时，我得到一个完整的路径名。我只需要获取文件名。在这里我需要获取简单名称而不是带根的全名。

首页

博学

6Ren·AI

商城