gpt4 book ai didi

compression - 压缩包含许多重复文件的文件夹

转载 作者:行者123 更新时间:2023-12-03 11:20:30 27 4
gpt4 key购买 nike

关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。












想改进这个问题?将问题更新为 on-topic对于堆栈溢出。

2年前关闭。




Improve this question




我有一个相当大的文件夹(〜10GB),其中包含整个目录树中的许多重复文件。其中许多文件重复了 10 次。重复的文件不会并排放置,而是位于不同的子目录中。

如何压缩文件夹以使其足够小?

我尝试在“最佳”模式下使用 Winrar,但它根本没有压缩它。 (很奇怪)

zip\tar\cab\7z\任何其他压缩工具会做得更好吗?

我不介意让该工具工作几个小时 - 但不会更多。

我宁愿自己不以编程方式进行

最佳答案

在您的情况下,最佳选择是 7-zip。
以下是选项:

7za a -r -t7z -m0=lzma2 -mx=9 -mfb=273 -md=29 -ms=8g -mmt=off -mmtf=off -mqs=on -bt -bb3 archife_file_name.7z /path/to/files
a - 将文件添加到存档 -r - 递归子目录 -t7z - 设置存档类型(在您的情况下为 7z) -m0=lzma2 - 将压缩方法设置为 LZMA2 . LZMA 是 7z 格式的默认和通用压缩方法。 LZMA方法的主要特点:
  • 高压缩比
  • 可变字典大小(最大 4 GB)
  • 压缩速度:在 2 GHz CPU 上约为 1 MB/s
  • 解压速度:在 2 GHz CPU 上约为 10-20 MB/s
  • 解压缩所需内存小(取决于字典大小)
  • 用于解压缩的小代码大小:约 5 KB
  • 支持多线程和P4的超线程
  • -mx=9 - 设置压缩级别。 x=0 表示复制模式(无压缩)。 x=9 - 超 -mfb=273 - 设置 LZMA 的快速字节数。它可以在 5 到 273 的范围内。正常模式的默认值为 32,最大和超模式的默认值为 64。通常,较大的数字会提供更好的压缩比和较慢的压缩过程。 -md=29 - 为 LZMA 设置字典大小。您必须以字节、千字节或兆字节为单位指定大小。字典大小的最大值为 1536 MB,但 7-Zip 的 32 位版本允许指定最多 128 MB 的字典。 LZMA 的默认值在正常模式下为 24 (16 MB),在最大模式下 (-mx=7) 下为 25 (32 MB),在 super 模式下 (-mx=9) 下为 26 (64 MB)。如果您没有从集合 [b|k|m|g] 中指定任何符号,则字典大小将计算为 DictionarySize = 2^Size 字节。解压缩字典大小为 N 的 LZMA 方法压缩的文件,需要大约 N 字节的可用内存 (RAM)。
    我用 md=29因为在我的服务器上只有 16Gb 的 RAM 可用。使用此设置 7-zip 在任何目录大小的归档中仅占用 5Gb。如果我使用更大的字典大小 - 系统将进行交换。 -ms=8g - 启用或禁用 固体模式 .默认模式为 s=on .在实体模式下,文件被组合在一起。通常,以固态模式压缩会提高压缩比。在您的情况下,这对于使实体 block 尽可能大非常重要。
    实体 block 大小的限制通常会降低压缩比。固体 .7z 文件的更新可能会很慢,因为它可能需要重新压缩。 -mmt=off - 套装 多线程模式关闭 .您需要将其关闭,因为我们需要在一个单独的 block 中由相同的 7-zip 线程处理相似或相同的文件。缺点是存档速度慢。无论您的系统有多少 CPU 或内核。 -mmtf=off - 设置 过滤器的多线程模式关闭 . -myx=9 - 将文件分析级别设置为最大,分析所有文件(增量和可执行过滤器)。 -mqs=on - 在实体文件中按类型对文件进行排序。将相同的文件存储在一起。 -bt - 显示执行时间统计 -bb3 - 设置输出日志级别

    关于compression - 压缩包含许多重复文件的文件夹,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27457326/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com