gpt4 book ai didi

palantir-foundry - 如何从 Palantir Foundry 中的 PySpark 模式创建空数据集?

转载 作者:行者123 更新时间:2023-12-05 03:19:39 27 4
gpt4 key购买 nike

我有一个 PySpark 模式,它描述了数据集的列及其类型(我可以手写,或者通过转到“列”选项卡,然后“复制 PySpark 模式”从现有数据集中获取)。

我想要一个具有此模式的空数据集,例如,它可以用作仅写回本体对象的支持数据集。我如何在 Foundry 中创建它?

最佳答案

要在 Python 中执行此操作,您可以使用上下文中的 Spark session 创建一个空数据集,以使用该架构创建 DataFrame,例如:

from pyspark.sql import types as T
from transforms.api import transform_df, configure, Output

SCHEMA = T.StructType([
T.StructField('entity_name', T.StringType()),
T.StructField('thing_value', T.IntegerType()),
T.StructField('created_at', T.TimestampType()),
])


# Given there is no work to do, save on compute by running it on the driver
@configure(profile=["KUBERNETES_NO_EXECUTORS_SMALL"])
@transform_df(
Output("/some/dataset/path/or/rid"),
)
def compute(ctx):
return ctx.spark_session.createDataFrame([], schema=SCHEMA)

关于palantir-foundry - 如何从 Palantir Foundry 中的 PySpark 模式创建空数据集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/73406822/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com