gpt4 book ai didi

apache-spark - 如何从 Apache Spark 写入 HDF5 文件?

转载 作者:行者123 更新时间:2023-12-05 04:52:18 31 4
gpt4 key购买 nike

我找到了用于从 Spark 读取 HDF5 文件的工具,但不是用于写入它们的工具。可能吗?

我们有一个大小为 10-40TB 的数据集。我们目前将其编写为大约 20,000 个 Python pickle 文件。那不是很便携。此外,HDF5 还提供压缩功能。

我们可以写parquet文件,一种方法是把parquet写出来,然后转成HDF5。但是,这种方法并不理想,因为没有一个转换工具是多线程的。

我们想使用 HDF5,因为它在科学界得到广泛认可。它对 Matlab 和 Stata 等程序的支持明显优于 parquet。

最佳答案

在咨询 HDFGroup 后,我们确定目前无法直接从 Spark 写入 HDF5 文件。它们可以使用 numpy 和 pandas 从 Dask 编写,但不能从 Spark 编写。

关于apache-spark - 如何从 Apache Spark 写入 HDF5 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66569509/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com