gpt4 book ai didi

parquet - 为什么排序后的 parquet 文件比未排序的文件大?

转载 作者:行者123 更新时间:2023-12-05 03:37:12 28 4
gpt4 key购买 nike

我创建了一个数据框,如下所示:

expanded_1 = pd.DataFrame({"Point": [random.choice(points) for x in range(30000000)], 
"Price": [random.choice(prices) for x in range(30000000)]
})

我存储为 Parquet 文件,它在磁盘上的大小为 90.2 MB。

在研究了如何使用 parquet 进行压缩后,我按点对值进行了排序,以便可以将相似的数据保存在一起,并理解这将使默认的 parquet 压缩技术更加高效。然而,我看到的结果却恰恰相反。在运行以下命令时:

expanded_1.sort_values(by=['Point']).to_parquet('/expanded_1_sorted.parquet')

生成的文件大小为 211 MB。

是什么导致尺寸增加?

最佳答案

我认为这是困惑的索引,reset_index(drop=True) 似乎修复了它。当我使用 points = prices = range(1000) 进行测试时,它没有变得更大,而是变得更小(未排序的原始大小的一半)。

或者正如@0x26res 指出的那样,.sort_values(by=['Point'], ignore_index=True) 效率更高。没有必要修复你没有破坏的东西。结果是一样的。

关于parquet - 为什么排序后的 parquet 文件比未排序的文件大?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69399523/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com