- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我正在使用 ZipOutputStream
来压缩一堆文件,这些文件混合了已压缩的格式以及许多大型高度可压缩格式(如纯文本)。
大多数已经压缩的格式都是大文件,花费 CPU 和内存重新压缩它们是没有意义的,因为它们永远不会变小,有时在极少数情况下会变大。
当我检测到预压缩文件时,我正在尝试使用 .setMethod(ZipEntry.STORED)
但它提示我需要提供 size、compressedSize 和 crc
对于那些文件。
我可以通过以下方法让它工作,但这需要我读取文件两次。一次计算 CRC32
,然后再次实际将文件复制到 ZipOutputStream
。
// code that determines the value of method omitted for brevity
if (STORED == method)
{
fze.setMethod(STORED);
fze.setCompressedSize(fe.attributes.size());
final HashingInputStream his = new HashingInputStream(Hashing.crc32(), fis);
ByteStreams.copy(his,ByteStreams.nullOutputStream());
fze.setCrc(his.hash().padToLong());
}
else
{
fze.setMethod(DEFLATED);
}
zos.putNextEntry(fze);
ByteStreams.copy(new FileInputStream(fe.path.toFile()), zos);
zos.closeEntry();
最佳答案
考虑到我必须解决这个问题的时间,我无法确定只读取一次文件并使用标准库计算 CRC
的方法。
我确实找到了一个优化方法,它平均减少了大约 50%
的时间。
我预先计算要与 ExecutorCompletionService
并发存储的文件的 CRC
限制为 Runtime.getRuntime().availableProcessors()
并等待它们完成。其有效性因需要计算 CRC
的文件数量而异。文件越多, yield 越大。
然后在 .postVisitDirectories()
中,我将 ZipOutputStream
包裹在来自 PipedInputStream/PipedOutputStream
的 PipedOutputStream
周围对在临时 Thread
上运行以将 ZipOutputStream
转换为 InputStream
我可以传递到 HttpRequest
以上传ZipOutputStream
的结果到远程服务器,同时串行写入所有预先计算的 ZipEntry/Path
对象。
目前这已经足够好,可以处理 300+GB
的即时需求,但是当我开始处理 10TB
的工作时,我会考虑解决它并尝试在不增加太多复杂性的情况下找到更多优势。
如果我在时间上想出了更好的方法,我会用新的实现更新这个答案。
我最终写了一个干净的房间 ZipOutputStream
支持多部分 zip 文件、智能压缩级别与 STORE
并且能够计算 CRC
当我读取然后在流的末尾写出元数据时。
The
ZipOutputStream.setLevel(NO_COMPRESSION/DEFAULT_COMPRESSION)
hack is not a viable approach. I did extensive tests on hundreds of gigs of data, thousands of folders and files and the measurements were conclusive. It gains nothing over calculating theCRC
for theSTORED
files vs compressing them atNO_COMPRESSION
. It is actually slower by a large margin!In my tests the files are on a network mounted drive so reading the files already compressed files twice over the network to calculate the
CRC
then again to add to theZipOutputStream
was as fast or faster than just processing all the files once asDEFLATED
and changing the.setLevel()
on theZipOutputStream
.There is no local filesystem caching going on with the network access. This is a worse case scenario, processing files on the local disk will be much much faster because of local filesystem caching.
So this hack is a naive approach and is based on false assumptions. It is processing the data through the compression algorithm even at
NO_COMPRESSION
level and the overhead is higher than reading the files twice.
关于java - ZipEntry.STORED 对于已经压缩的文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35141580/
我正在尝试创建一种将 java.io.File 复制到 java.util.zip.ZipFile 的方法。为此,我首先打开 ZipFile 的 java.util.zip.ZipOutputStre
枚举 和 Enumeration?如果是,有什么区别? 最佳答案 当您拥有其中之一时,在您可以做什么方面没有实际区别,因为类型参数仅用于“输出”位置。另一方面,在您可以使用它们方面有很大的不同。 假设
我正在努力查看 .zip 文件以确认所有包含的文件都已正确命名,但遇到了一些麻烦。这是文件层次结构: -.zip -dir -file1 -file2 -file3 -
我的 springboot 应用程序中有这个方法,它在 custom_users 目录中生成 3 个 CSV 文件(与员工、客户和建筑物相关),其名称后附加了时间戳,如下所示。以下代码对我来说效果很好
我试图将 ZipEntry 对象序列化为字节数组,但我知道这是不可能的。 这就是我正在做的事情: ZipEntry entryToDocumentum = null; for (ZipEntry on
如果我创建 ZipEntry 时未指定其大小,则默认大小是多少?我需要指定它的尺寸吗?我们什么时候设置尺寸?我看到 ZipEntry 有一个 setSize(long size) 方法。 ZipEnt
我的 zip 文件中有一个 zip 文件。所以我需要递归解压缩。输入以字节数组的形式出现 zis = new ZipInputStream(new ByteArrayInputStream((byte
简单的问题 我正在将一系列文本文件写入 zip,只需将文件输出流包装在 zipoutputstream 中,然后包装在 printwriter 中。 public static int saveDat
ZIP 条目存储条目的完整路径名,因为(我确信下一部分)ZIP 存档没有组织为目录。元数据包含有关如何存储文件(在目录内)的信息。 如果我在 Windows 中创建 ZIP 文件,当我在另一个操作系统
ZIP 条目存储条目的完整路径名,因为(我确信下一部分)ZIP 存档不是按目录组织的。元数据包含有关文件应该如何存储(在目录内)的信息。 如果我在 Windows 中创建一个 ZIP 文件,当我在另一
抱歉标题困惑。基本上我有一个 ZipFile,里面有一堆 .txt 文件,但也有一个文件夹。我在下面显示的代码是在 zip 条目中找到该文件夹。这部分我做得很好。问题是,一旦我找到该文件夹,它
我正在尝试从 ZIP 存档中读取 XML 文件。相关代码如下: ZipInputStream zis = new ZipInputStream(is); ZipEntry entry = zis.ge
我想将字符串(中文文本)导出到 zip 文件内的 CSV 文件。哪里需要将编码设置为UTF-8?或者我应该采取什么方法(基于下面的代码)在导出的CSV文件中显示中文字符? 这是我目前拥有的代码。
我的项目有一些已修改并添加到 zip 文件中的 xml 模板。问题是模板都在模板文件夹中,但 zip 文件的预期格式是将它们直接放在根目录中。 项目层次结构:模板/blah.xml 预期的 zip 文
我正在尝试从 ZIP 存档中读取 XML 文件。相关代码如下: ZipInputStream zis = new ZipInputStream(is); ZipEntry entry = zis.ge
我正在 Android 上试验 ZipEntry.getTime()。但是,我在不同设备上看到相同的 zip 和文件有不同的结果:1419755996000,1419752396000,1419730
我正在尝试使用 java.util.zip API 生成 zip 文件,但没有找到任何方法来设置 ZipEntry 的权限。 。有想法吗? 最佳答案 使用java.util.zip是不可能的。尝试 A
我有以下代码将文本文件写入 zip: FileOutputStream fOut = new FileOutputStream(fullFilename, false); BufferedOutput
我正在尝试使用 ObjectOutputStream 将对象序列化为 ZipEntry,但是它似乎没有写入任何内容,因为当我打印生成的字节数组时,它显示为 null。我尝试使用 ZipOutputSt
我想知道是否可以从 ZipEntry 中获取简单名称... 当我调用 Entry 的 getName() 时,我得到一个完整的路径名。 我只需要获取文件名。 在这里我需要获取简单名称而不是带根的全名。
我是一名优秀的程序员,十分优秀!