python - 如何从 PySpark 的 SQLite 数据库文件加载表？-6ren

python - 如何从 PySpark 的 SQLite 数据库文件加载表？

转载作者：行者123 更新时间：2023-11-28 16:22:43

我正在尝试从存储在本地磁盘上的 SQLLite .db 文件加载表。在 PySpark 中有什么干净的方法可以做到这一点吗？

目前，我正在使用一种可行但不够优雅的解决方案。首先，我通过 sqlite3 使用 pandas 阅读了表格。一个问题是在过程中模式信息没有传递(可能是也可能不是问题)。我想知道是否有一种不使用 Pandas 的直接加载表的方法。

import sqlite3
import pandas as pd

db_path = 'alocalfile.db'
query = 'SELECT * from ATableToLoad'

conn = sqlite3.connect(db_path)
a_pandas_df = pd.read_sql_query(query, conn)

a_spark_df = SQLContext.createDataFrame(a_pandas_df)

似乎有一种使用 jdbc 来执行此操作的方法，但我还没有弄清楚如何在 PySpark 中使用它。

最佳答案

首先，您需要在路径中使用 JDBC 驱动程序 jar 启动 pyspark下载 sqllite jdbc 驱动程序并在下面提供 jar 路径。 https://bitbucket.org/xerial/sqlite-jdbc/downloads/sqlite-jdbc-3.8.6.jar

pyspark --conf spark.executor.extraClassPath=<jdbc.jar> --driver-class-path <jdbc.jar> --jars <jdbc.jar> --master <master-URL>

上面pyspark命令的解释，看下面的帖子

Apache Spark : JDBC connection not working

现在这是你会怎么做:-

现在要读取sqlite数据库文件，只需将其读入spark dataframe

df = sqlContext.read.format('jdbc').\
     options(url='jdbc:sqlite:Chinook_Sqlite.sqlite',\
     dbtable='employee',driver='org.sqlite.JDBC').load()

df.printSchema() 查看您的模式。

完整代码:- https://github.com/charles2588/bluemixsparknotebooks/blob/master/Python/sqllite_jdbc_bluemix.ipynb

谢谢，查尔斯。

关于python - 如何从 PySpark 的 SQLite 数据库文件加载表？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38985350/

文章推荐： jquery - 带有单选按钮和 JS 的 CSS 过渡

文章推荐： javascript - 使用 NG-Repeat angularJS 进行 CSS 图像格式化

文章推荐：当虚拟键盘可见时，页面中心的 CSS 元素被推高

文章推荐： javascript - 尝试将图像添加到列表中

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 如何从 PySpark 的 SQLite 数据库文件加载表？