gpt4 book ai didi

python - 将 Spark SQL 数据帧转换为 Pandas 数据帧

转载 作者:行者123 更新时间:2023-12-03 06:25:20 26 4
gpt4 key购买 nike

我目前正在使用 Databricks 笔记本,最初是在 Scala 中,使用 JDBC 连接到 SQL 服务器并返回一个表。

我使用以下代码来查询并显示笔记本中的表格

val ViewSQLTable= spark.read.jdbc(jdbcURL, "api.meter_asset_enquiry", connectionProperties)

display(ViewSQLTable)

效果很好,但是我希望能够将表加载到 pandas 数据框中,这样我就可以利用 PandasProfing

我已经尝试了以下操作,但我似乎遗漏了一些东西,据我所知,上面的代码只显示查询返回的内容,但它不是可以调用的东西?

这是我在新单元中尝试的内容

%python
pandasDF = ViewSQLTable.select("*").toPandas()
print(pandasDF)

我假设它是一个 Spark SQL 表,因为当我运行第一段代码时,我得到以下响应

“ViewSQLTable:org.apache.spark.sql.DataFrame = [column1:int,column2:int ... 49个字段]”

有人知道如何使用 python 将此表加载到 pandas 数据框中吗?

最佳答案

我想解释更多。 Python 无法直接访问 Scala 中的变量。因此,从 scala 写入文件和从文件读取到 Python DF 是一种路径。 Hive 表(临时)是另一个。

enter image description here

这表明 x 对 python 不可用。

让我们尝试使用数据框。

enter image description here

我现在有了一个临时 View 。

enter image description here

同样,scala 命名空间中的 df 与 python 中的 df 不同。但是,可以从所有语言访问配置单元目录和/或临时 View 。

enter image description here

简而言之,混合语言时要小心。变量没有被传递。

关于python - 将 Spark SQL 数据帧转换为 Pandas 数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/75592549/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com