gpt4 book ai didi

palantir-foundry - 如何减少类型转换数据集中的文件数量?

转载 作者:行者123 更新时间:2023-12-05 02:48:05 24 4
gpt4 key购买 nike

我的数据集有 20000 个文件,每个文件都很小。我将如何减少文件数量以及最佳数量是多少?

最佳答案

最直接的方法是在转型结束。

这需要是您返回/写出结果之前的最后一次通话。

这看起来像:

# ...

@transform_df(
# ... inputs
)
def my_compute_function(my_inputs):
# ... my transform logic ...

df = df.coalesce(500)
# df = df.repartition(500) # this also works but is slightly slower than coalesce
return df

这是用于引用的称为“分桶”的前兆步骤。

最佳存储桶数量取决于您所处理的数据规模。在成功构建后,通过观察磁盘上数据集的总大小来计算最佳桶数有点简单。

如果您的数据集大小为 128GB,您最终会希望得到 128MB 的文件,因此您的存储桶数量为:

128 GB * (1000 MB / 1 GB) * (1 file / 128MB) -> 1000 files

注意:这不是一个精确的计算,因为由于 Snappy + Parquet 写出中使用的数据压缩,更改存储桶计数后您的最终数据集大小将有所不同。您会注意到文件大小与您预期的略有不同,因此在上述示例中您最终可能需要 1100 或 900 个文件

关于palantir-foundry - 如何减少类型转换数据集中的文件数量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64651490/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com