gpt4 book ai didi

python - 如何将 Spark 数据帧转换为 Pandas 并返回 Kedro?

转载 作者:太空宇宙 更新时间:2023-11-04 01:47:16 25 4
gpt4 key购买 nike

我试图了解在 Kedro 中将来自一个节点的 Spark 数据帧转换为另一个节点所需的 Pandas 的最佳方式是什么,而不创建冗余转换步骤。

最佳答案

Kedro 目前支持 2 种策略:

使用Transcoding特色

这需要一个定义两个DataCatalog相同数据集的条目,使用通用格式(Parquet、JSON、CSV 等)的相同文件,在您的 catalog.yml 中:

my_dataframe@spark:
type: kedro.contrib.io.pyspark.SparkDataSet
filepath: data/02_intermediate/data.parquet

my_dataframe@pandas:
type: ParquetLocalDataSet
filepath: data/02_intermediate/data.parquet

然后像这样在管道中使用它们:

Pipeline([
node(my_func1, "spark_input", "my_dataframe@spark"),
node(my_func2, "my_dataframe@pandas", "output"),
])

在这种情况下,kedro明白my_dataframe在这两种情况下都是相同的数据集,并正确解析节点执行顺序。同时,kedro会使用 SparkDataSet实现保存和 ParquetLocalDataSet用于加载,所以第一个节点应该输出 pyspark.sql.DataFrame ,而第二个节点将收到 pandas.Dataframe .

使用Pandas to SparkSpark to Pandas节点装饰器

注意: Spark <-> Pandas内存中转换为 notorious因为它的内存需求,所以只有当已知数据帧很小时,这是一个可行的选择。

可以按照文档装饰节点:

from spark import get_spark
from kedro.contrib.decorators import pandas_to_spark

@pandas_to_spark(spark_session)
def my_func3(data):
data.show() # data is pyspark.sql.DataFrame

甚至整个管道:

Pipeline([
node(my_func4, "pandas_input", "some_output"),
...
]).decorate(pandas_to_spark)

关于python - 如何将 Spark 数据帧转换为 Pandas 并返回 Kedro?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58807540/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com