gpt4 book ai didi

apache-spark - 在 PySpark 中编写增量表时如何使用 Zorder 聚类?

转载 作者:行者123 更新时间:2023-12-02 00:25:03 25 4
gpt4 key购买 nike

我正在尝试编写一个非常大的 PySpark 数据框,遵循我在 https://databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-delta.html 中看到的建议

但是,此页面显示了 Scala 中的建议,我不知道如何将其转换为 PySpark

我看到这样的 Scala 代码:

spark.read.table(connRandom)
.write.format("delta").saveAsTable(connZorder)

sql(s"OPTIMIZE $connZorder ZORDER BY (src_ip, src_port, dst_ip, dst_port)")

但是我怎样才能做第二行的等效操作,比如在 PySpark 中的特定列“my_col”上对 zorder 进行集群?

最佳答案

第二行是 Scala 给出的 SQL 命令。您可以在 python 中使用 spark.sql("OPTIMIZE tableName ZORDER BY (my_col)") 执行相同的操作。

另请查看 documentation ,它有一个完整的 PySpark 笔记本示例。

关于apache-spark - 在 PySpark 中编写增量表时如何使用 Zorder 聚类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54080102/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com