gpt4 book ai didi

pyspark - 如何在本地开发和测试python转换代码?

转载 作者:行者123 更新时间:2023-12-04 16:45:09 28 4
gpt4 key购买 nike

鉴于输入数据集适合本地机器的内存,在本地开发和测试 python 转换代码的推荐方法是什么?

最佳答案

不需要您模拟转换包的最简单方法是将您的逻辑提取到带有 pyspark 函数的纯 python 中,该函数接收数据帧作为输入并返回数据帧。
IE。:

# yourtransform.py
from my_business_logic import magic_super_complex_computation

@transform_df(
Output("/foo/bar/out_dataset"),
input1=Input("/foo/bar/input1"),
input2=Input("/foo/bar/input2"))
def my_transform(input1, input2):
return magic_super_complex_computation(input1, input2)

您现在可以在测试中导入 magic_super_complex_computation并仅使用 pyspark 对其进行测试。
IE:
from my_business_logic import magic_super_complex_computation


def test_magic_super_complex_computation(spark_context):
df1 = load_my_data_as_df(spark_context, "input1")
df2 = load_my_data_as_df(spark_context, "input2")

result = magic_super_complex_computation(input1, input2).collect()
assert len(result) == 123

请注意,这要求您提供有效的 spark 上下文作为 pytest(或您正在使用的任何测试框架)中的 fixture

关于pyspark - 如何在本地开发和测试python转换代码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64711056/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com