gpt4 book ai didi

python - 有没有什么好方法将Spark RDD的内容读取到Dask结构中

转载 作者:太空宇宙 更新时间:2023-11-03 21:37:14 25 4
gpt4 key购买 nike

目前,在处理复杂的嵌套结构时,Spark 结构和 Dask 之间的集成似乎比较麻烦。尽管 parquet 加载是一项大型持续工作的一部分(fastparquet、pyarrow),但专门转储具有由 Dask 读取的嵌套结构的 Spark Dataframe 似乎还不是很可靠;

所以我的后续问题 - 假设我可以接受在 Spark 中进行一些转换,并将 DataFrame 转换为包含自定义类对象的 RDD;有没有一种方法可以可靠地转储具有自定义类对象的 Spark RDD 的数据并在 Dask 集合中读取它?显然,您可以将 rdd 收集到 python 列表中,对其进行 pickle,然后将其作为普通数据结构读取,但这消除了加载大于内存数据集的机会。 dask 可以使用 Spark pickle 之类的东西来加载分布式 pickle 吗?

最佳答案

我通过执行以下操作解决了这个问题

拥有一个包含自定义对象列表作为行值的 Spark RDD,我创建了一个版本的 rdd,其中使用 cPickle.dumps 将对象序列化为字符串。然后将此 RDD 转换为带有字符串列的简单 DF 并将其写入 parquet。 Dask能够读取结构简单的parquet文件。然后使用cPickle.loads反序列化以获得原始对象

关于python - 有没有什么好方法将Spark RDD的内容读取到Dask结构中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53169690/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com