gpt4 book ai didi

amazon-web-services - 如何连接到 Amazon Redshift 或 Apache Spark 中的其他数据库?

转载 作者:行者123 更新时间:2023-12-01 07:18:16 26 4
gpt4 key购买 nike

我正在尝试通过 Spark 连接到 Amazon Redshift,因此我可以将 S3 上的数据与 RS 集群上的数据连接起来。我在这里找到了一些非常简洁的文档,用于连接到 JDBC 的能力:

https://spark.apache.org/docs/1.3.1/sql-programming-guide.html#jdbc-to-other-databases

load 命令看起来相当简单(虽然我不知道如何在此处输入 AWS 凭证,也许在选项中?)。

df = sqlContext.load(source="jdbc", url="jdbc:postgresql:dbserver", dbtable="schema.tablename")

而且我不完全确定如何处理 SPARK_CLASSPATH 变量。我现在通过 iPython notebook(作为 Spark 发行版的一部分)在本地运行 Spark。我在哪里定义它以便 Spark 加载它?

无论如何,就目前而言,当我尝试运行这些命令时,我收到了一堆无法辨认的错误,所以我现在有点卡住了。感谢任何帮助或指向详细教程的指针。

最佳答案

虽然这似乎是一个很老的帖子,但任何仍在寻找答案的人,以下步骤对我有用!

启动包括 jar 在内的 shell。

bin/pyspark --driver-class-path /path_to_postgresql-42.1.4.jar --jars /path_to_postgresql-42.1.4.jar

通过提供适当的详细信息来创建 df:
myDF = spark.read \
.format("jdbc") \
.option("url", "jdbc:redshift://host:port/db_name") \
.option("dbtable", "table_name") \
.option("user", "user_name") \
.option("password", "password") \
.load()

Spark 版本:2.2

关于amazon-web-services - 如何连接到 Amazon Redshift 或 Apache Spark 中的其他数据库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31395743/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com