gpt4 book ai didi

mysql - 如何在 jdbc 数据源中使用 dbtable 选项的子查询?

转载 作者:可可西里 更新时间:2023-11-01 06:32:50 25 4
gpt4 key购买 nike

我想使用 Spark 处理来自 JDBC 源的一些数据。但首先,我不想从 JDBC 读取原始表,而是想在 JDBC 端运行一些查询来过滤列和连接表,并将查询结果作为表加载到 Spark SQL 中。

以下加载原始 JDBC 表的语法适用于我:

df_table1 = sqlContext.read.format('jdbc').options(
url="jdbc:mysql://foo.com:3306",
dbtable="mydb.table1",
user="me",
password="******",
driver="com.mysql.jdbc.Driver" # mysql JDBC driver 5.1.41
).load()
df_table1.show() # succeeded

根据 Spark documentation (我使用的是 PySpark 1.6.3):

dbtable: The JDBC table that should be read. Note that anything that is valid in a FROM clause of a SQL query can be used. For example, instead of a full table you could also use a subquery in parentheses.

所以只是为了实验,我尝试了一些简单的事情:

df_table1 = sqlContext.read.format('jdbc').options(
url="jdbc:mysql://foo.com:3306",
dbtable="(SELECT * FROM mydb.table1) AS table1",
user="me",
password="******",
driver="com.mysql.jdbc.Driver"
).load() # failed

它抛出以下异常:

com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'table1 WHERE 1=0' at line 1

我还尝试了其他一些语法变体(添加/删除括号、删除“as”子句、切换大小写等),但都没有成功。那么正确的语法是什么?在哪里可以找到更详细的语法文档?此外,错误消息中这个奇怪的“WHERE 1=0”是从哪里来的?谢谢!

最佳答案

要在 Spark SQL 中使用 sql 查询从 JDBC 源读取数据,您可以尝试这样的操作:

val df_table1 = sqlContext.read.format("jdbc").options(Map(
("url" -> "jdbc:postgresql://localhost:5432/mydb"),
("dbtable" -> "(select * from table1) as table1"),
("user" -> "me"),
("password" -> "******"),
("driver" -> "org.postgresql.Driver"))
).load()

我用 PostgreSQL 试过了。可以根据MySQL修改。

关于mysql - 如何在 jdbc 数据源中使用 dbtable 选项的子查询?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43174838/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com