gpt4 book ai didi

pyspark - 如何使用 pyspark 在 jupyter notebook 中引用 deltalake 表

转载 作者:行者123 更新时间:2023-12-05 03:58:46 27 4
gpt4 key购买 nike

我正在尝试通过 Pyspark 开始使用 DeltaLakes

为了能够使用 deltalake,我在 Anaconda shell-prompt 上调用 pyspark 作为 —

pyspark — packages io.delta:delta-core_2.11:0.3.0

这是来自 deltalake 的引用 — https://docs.delta.io/latest/quick-start.html

delta lake 的所有命令都可以在 Anaconda shell 提示符下正常工作。

在 jupyter notebook 上,引用 deltalake 表会出错。这是我在 Jupyter notebook 上运行的代码 -

df_advisorMetrics.write.mode("overwrite").format("delta").save("/DeltaLake/METRICS_F_DELTA")
spark.sql("create table METRICS_F_DELTA using delta location '/DeltaLake/METRICS_F_DELTA'")

下面是我在笔记本开始时使用的代码,用于连接到 pyspark -

import findspark
findspark.init()
findspark.find()

import pyspark
findspark.find()

下面是我得到的错误:

Py4JJavaError: An error occurred while calling o116.save. : java.lang.ClassNotFoundException: Failed to find data source: delta. Please find packages at http://spark.apache.org/third-party-projects.html

有什么建议吗?

最佳答案

我创建了一个 Google Colab/Jupyter Notebook 示例来展示如何运行 Delta Lake。

https://github.com/prasannakumar2012/spark_experiments/blob/master/examples/Delta_Lake.ipynb

它具有运行所需的所有步骤。这使用最新的 spark 和 delta 版本。请相应地更改版本。

关于pyspark - 如何使用 pyspark 在 jupyter notebook 中引用 deltalake 表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57740693/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com