作者热门文章
- r - 以节省内存的方式增长 data.frame
- ruby-on-rails - ruby/ruby on rails 内存泄漏检测
- android - 无法解析导入android.support.v7.app
- UNIX 域套接字与共享内存(映射文件)
我有多个 gz 文件,总大小约为 120GB。我想将这些文件解压缩(gzip)到同一目录并删除现有的 gz 文件。目前我们正在手动进行,使用 gzip -d <filename>
解压缩需要更多时间.
有没有一种方法可以通过创建 python 脚本或任何其他技术来并行解压缩这些文件。目前这些文件在 Linux 机器上。
最佳答案
您可以使用 multiprocessing Pools 轻松完成此操作:
import gzip
import multiprocessing
import shutil
filenames = [
'a.gz',
'b.gz',
'c.gz',
...
]
def uncompress(path):
with gzip.open(path, 'rb') as src, open(path.rstrip('.gz'), 'wb') as dest:
shutil.copyfileobj(src, dest)
with multiprocessing.Pool() as pool:
for _ in pool.imap_unordered(uncompress, filenames, chunksize=1):
pass
这段代码会产生几个进程,每个进程一次提取一个文件。
这里我选择了 chunksize=1
,以避免在某些文件大于平均大小时停止进程。
关于python - 如何使用多线程在 python 中解压缩多个 gz 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34451612/
我是一名优秀的程序员,十分优秀!