java - 使用 Java 创建 .zip 存档的缓冲区大小是多少？-6ren

java - 使用 Java 创建 .zip 存档的缓冲区大小是多少？

转载作者：塔克拉玛干更新时间：2023-11-03 04:17:01

26

4

我使用此代码创建一个包含文件列表的 .zip:

ZipOutputStream zos = new ZipOutputStream(new FileOutputStream(zipFile));

for (int i=0;i<srcFiles.length;i++){
    String fileName=srcFiles[i].getName();
    ZipEntry zipEntry = new ZipEntry(fileName);
    zos.putNextEntry(zipEntry);
    InputStream fis = new FileInputStream(srcFiles[i]);
    int read;
    for(byte[] buffer=new byte[1024];(read=fis.read(buffer))>0;){
        zos.write(buffer,0,read);
    }
    fis.close();
    zos.closeEntry();
}
zos.close();

我不知道 zip 算法和 ZipOutputStream 是如何工作的，如果它在我读取并发送到“zos”所有数据之前写了一些东西，结果文件的字节大小可能与我选择另一个不同缓冲区大小。

换句话说，我不知道算法是不是这样的:

读取数据-->处理数据-->创建.ZIP

或

读取数据 block -->处理数据 block -->将数据 block 写入.ZIP-->|^------------------------------------------------ ---------------------------------------------- --------------------------

如果是这种情况，什么缓冲区大小是最好的？

更新:

我测试了这段代码，将缓冲区大小从 1024 更改为 64，并压缩相同的文件:1024 字节的 80 KB 结果文件比 64 字节缓冲区小 3 个字节。在最短时间内生成最小 .zip 的最佳缓冲区大小是多少？

最佳答案

简短回答:我会选择 16k 之类的东西。

长答案:

ZIP 使用 DEFLATE 算法进行压缩 (http://en.wikipedia.org/wiki/DEFLATE)。 Deflate 是 Ziv Lempel Welch 的一种风格(在维基百科中搜索 LZW)。 DEFLATE 使用 LZ77 和霍夫曼编码。

这是一种字典压缩，据我所知，从算法的角度来看，将数据输入压缩器时使用的缓冲区大小应该几乎没有影响。 LZ77 的最大影响是字典大小和滑动窗口，在您的示例中它们不受缓冲区大小的控制。

我认为您可以根据需要尝试不同的缓冲区大小并绘制图表，但我相信您不会看到压缩率 (3/80000 = 0.00375%) 有任何显着变化。

缓冲区大小对速度的最大影响是由于调用 FileInputStream.read 和 zos.write 时执行的开销代码量。从这个角度来看，你应该考虑你得到了什么和你花了什么。

当从 1 字节增加到 1024 字节时，您将丢失 1023 字节(理论上)，并且 .read 和 .write 方法的开销时间减少了 ~1024。但是，当从 1k 增加到 64k 时，您将花费 63k，从而将开销减少 64 倍。

所以这伴随着 yield 递减，因此我会选择中间的某个地方(比如 16k)并坚持下去。

关于java - 使用 Java 创建 .zip 存档的缓冲区大小是多少？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/200752/

26

4

0

文章推荐： c++ - 如何在 C++ 中将函数列表应用于字符串？

文章推荐： java - Java 中的 NFS 服务器

文章推荐： java - 这个括号组合的时间复杂度是多少？

Perl 存档:: tar
我想用 File::Find 归档所有 txt 文件，删除源文件并删除空目录。我在使用“$tar->rename( );”重命名文件时遇到困难因为我想从它们的完整路径名中删除它们并仅使用父目录/*.
来自远程的特定哈希的 git 存档
我试图从一个远程存储库中获取一个目录，但我只想从特定的哈希中获取该文件。如果我使用带有 HEAD 的 git archive 一切正常，但是当我尝试使用特定的哈希时: git archive -v -
子目录中的 git 存档
无论当前目录如何，我都在尝试归档我的项目。项目结构 main_folder/ sub1/ sub2/ sub3/ 如果我 cd至 main_folder/sub2/s
从裸仓库上更改的文件中获取 git 存档
我有一个创建 install-tars 的远程裸存储库(无工作目录)。很好用。但是现在我只想为更改的文件创建 tars。我这样试过: git archive --format=tar --prefix
具有未暂存更改的 git 存档
我正在构建自己的 rpm。通常我使用 git archive 从我感兴趣的提交或标签中获取 tarball(假设我放了一个标签 1.0): git archive --format=tgz --pre
具有未提交更改的存储库的 Git 存档
如何使用 git archive 创建当前存储库的存档，包括本地未提交的更改？最佳答案我知道这是旧的，但我想我找到了解决方案。运行: stashName=`git stash create`;
android - 您上传的文件不是格式正确的 zip 存档
当我尝试发布 aab 时，出现此错误。请有人帮助我。我该如何修复它。点击蓝色链接查看图片最佳答案当我使用拖放操作到网络浏览器时，我经常遇到这个错误。如果我使用页面上的“上传”按钮并使用文件选择
module - 未创建多个 Ansible 存档
我试图通过使用归档模块从 2 个文件夹中创建 2 个归档。不幸的是，它无法正常工作，没有任何错误。我的任务如下所示: tasks: - name: create a tarball of
unix - 如何创建不会扩展到子文件夹的 tar 存档？
我不想创建一个没有内部目录结构的“平面”tarball。但我希望顶级文件是“松散的”而不是镜像它们最初所在的目录结构。考虑: + archives | + data | + site
xcode 存档/ipa 问题
这个问题在这里已经有了答案: 10年前关闭。 Possible Duplicate: Xcode 4 Archive Version Unspecified 你好，我正在为 iPad 临时部署归档应
iphone - 存档/取消存档 UIWebView？
我想将 UIWebView 的当前状态保存到 iPhone SDK 中的磁盘。我有一个 UIWebView，它加载一个包含大量 JavaScript 的网站。我想保存 UIWebView 状态，维护
xcode - 没有库的通用 Xcode 存档
存档我的 Mac OS 应用程序时，我收到“通用 Xcode 存档”。我读过，可以通过在任何静态库上将 Skip Install 设置为 YES 来解决此问题，但我没有添加任何静态库。我有两个目标和一
delphi - 将文件添加到 ZIP 存档？
可以使用什么组件或方法来指定文件名列表，然后将它们压缩到单个存档中？我不需要高级功能或任何东西，但如果我可以将一些文件名添加到字符串列表中，然后将这些文件放入 ZIP 中，那就太好了。我尝试搜索一
pipe - 如何从标准输入中提取 tar 存档？
我有一个很大的 tar 文件，我分割了。是否可以使用管道来 cat 并解压文件。类似于: cat largefile.tgz.aa largefile.tgz.ab | tar -xz 而不是: c
带有时间戳的 Gradle distZip 存档
我使用 distZip 任务来创建我的发行版。目前发行版名称为“baseName”-“version”.zip。我想将当前时间戳用作分类器，即构建时间。我尝试使用 distZip { cla
javascript - 无法下载动态创建的 ZIP 存档
我正在尝试将 MySQL 查询的输出动态写入存档。这是我的代码: var async = require("async"); var mysql = require("mysql"); var exp
mercurial - 制作一个没有前缀的 Mercurial 存档
也许是个愚蠢的问题，但我的谷歌不起作用。在我的存储库根目录上执行以下操作: $ hg archive my_archive.tar.gz 给我一个 tar.gz 文件，其中包含一个名为 my_ar
tar - 这看起来不像 tar 存档
[root@c0002242 lfeng]# tar -zxvf/opt/test/ALLscripts.tar.gz -C/opt/test1 tar:这看起来不像 tar 存档 tar:跳到下一个
gzip - 如何创建平面 tar 存档
我的tree命令返回 tmp `-- t `-- e |-- foo.ps `-- s |-- bar.ps `
c++ - 使用-(存档-)gcc命令
在编译DLL时，我遇到了许多undefined reference错误，我认为这可能是由于库之间的循环依赖关系引起的。为了解决这个问题，我一直在尝试使用-(文件-)和--start-group文件--

首页

博学

6Ren·AI

商城

java - 使用 Java 创建 .zip 存档的缓冲区大小是多少？