gpt4 book ai didi

python - 从 pySpark 中的 UDF 动态推断返回对象的架构

转载 作者:行者123 更新时间:2023-12-05 05:21:27 36 4
gpt4 key购买 nike

我想在 pySpark 中使用 UDF,它不返回原子值而是嵌套结构。我知道我可以注册 UDF 并手动设置它将返回的对象的架构,例如

format = ArrayType(
StructType([
StructField('id',IntegerType()),
StructField('text',StringType())
]
)
spark.udf.register('functionName', functionObject, format)

并在 UDF 中使用 python 列表来匹配格式,例如

return [[1,'A'],[2,'B']]

但是有什么方法可以避免在注册 UDF 时显式设置返回类型,而是自动推断其架构?

如果我不设置返回类型,它会自动设置为 StringType

最佳答案

is there any way to avoid explicitly setting the return type when registering the UDF, and instead automatically infer its schema?

没有。在调用 udf 之前必须知道架构,并且无法在运行时推断它。

关于python - 从 pySpark 中的 UDF 动态推断返回对象的架构,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42823061/

36 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com