作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个 PySpark 模式,它描述了数据集的列及其类型(我可以手写,或者通过转到“列”选项卡,然后“复制 PySpark 模式”从现有数据集中获取)。
我想要一个具有此模式的空数据集,例如,它可以用作仅写回本体对象的支持数据集。我如何在 Foundry 中创建它?
最佳答案
要在 Python 中执行此操作,您可以使用上下文中的 Spark session 创建一个空数据集,以使用该架构创建 DataFrame,例如:
from pyspark.sql import types as T
from transforms.api import transform_df, configure, Output
SCHEMA = T.StructType([
T.StructField('entity_name', T.StringType()),
T.StructField('thing_value', T.IntegerType()),
T.StructField('created_at', T.TimestampType()),
])
# Given there is no work to do, save on compute by running it on the driver
@configure(profile=["KUBERNETES_NO_EXECUTORS_SMALL"])
@transform_df(
Output("/some/dataset/path/or/rid"),
)
def compute(ctx):
return ctx.spark_session.createDataFrame([], schema=SCHEMA)
关于palantir-foundry - 如何从 Palantir Foundry 中的 PySpark 模式创建空数据集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/73406822/
我是一名优秀的程序员,十分优秀!