gpt4 book ai didi

pandas - 排序后磁盘上压缩文件的大小大幅增加?

转载 作者:行者123 更新时间:2023-12-04 07:54:16 25 4
gpt4 key购买 nike

我有一个 Pandas 数据框,作为 GZIP 存储在磁盘上。在 RAM 上大约 90GB,当我使用 pandas.to_parquet 将它保存为 gzip 时,它压缩到大约 3GB。
我最近在不同的列上使用 pandas.sort_values 对其进行了排序,当我使用相同的方法保存它时,磁盘上的大小突然变成了 60GB。
为什么会发生这种情况,是否有不同的排序/保存方法来防止这种情况发生?

最佳答案

我不得不猜测您的文件以前是在不同的列上排序的,并且该列的内容与前面的记录的匹配是压缩的重要组成部分。然后,当您对不同的列进行排序时,该另一列被有效地随机化,因此相似的值不再彼此接近。您排序的列可能比以前具有更好的压缩,但与最初排序的列相比,这种影响很小。这就是杀死压缩的原因。

关于pandas - 排序后磁盘上压缩文件的大小大幅增加?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66784852/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com