gpt4 book ai didi

python - 如何使用gzip有效地将许多小文件压缩为许多小.tar.gz文件?

转载 作者:太空宇宙 更新时间:2023-11-04 04:39:31 25 4
gpt4 key购买 nike

我有数百万个小 *.csv 文件,我想用 gzip 压缩它们。

用gzip循环压缩是可以的,但是效率不够。

我想知道是否有一种方法可以有效地做到这一点?通过多重处理或其他方式?

最佳答案

使用zstd根据Charles Duffy's comment :

cd csvdir  # go to where the million .csv files are
zstd --train `find . -name '*.csv' | shuf -n 100`
mv dictionary csv.dict
zstd -T$(nproc) -9 -D csv.dict -o csvfiles.zstd *.csv

这会根据一百个 .csv 文件的随机样本创建一个字典,然后使用所有 CPU 核心将这百万个文件有效地压缩为 csvfiles.zstd

关于python - 如何使用gzip有效地将许多小文件压缩为许多小.tar.gz文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55979375/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com