gpt4 book ai didi

python - Pyspark 和 Cassandra 安全包.zip

转载 作者:行者123 更新时间:2023-12-04 09:00:01 27 4
gpt4 key购买 nike

我是这个 pyspark cassandra 技术的新手,我在 pyspark 中找到了很多关于 Spark.sql 的资源,我认为这很酷,但我仍然停留在与我的数据库的连接级别,因为我需要一个 secure-bundle.zip从 datastax 到连接。所以,我在这里提出我的问题:
我知道这是使用 pyspark shell 连接到我的远程数据库的方法:

pyspark --packages com.datastax.spark:spark-cassandra-connector_2.11:2.5.1\ 
--files path_to/secure-connect-test.zip \
--conf spark.cassandra.connection.config.cloud.path=secure-connect-test.zip \
--conf spark.cassandra.auth.username=UserName \
--conf spark.cassandra.auth.password=Password \
--conf spark.dse.continuousPagingEnabled=false
我已经下载了 com.datastax.spark:spark-cassandra-connector_2.11:2.5.1 的 jar 文件,所以我已将这些 jar 复制到我的 spark/jars 文件夹(正确,对吧?)
然后,我的 spark shell 命令以如下形式结束:
pyspark  --files path_to/secure-connect-test.zip \
--conf spark.cassandra.connection.config.cloud.path=secure-connect-test.zip \
--conf spark.cassandra.auth.username=UserName \
--conf spark.cassandra.auth.password=Password \
--conf spark.dse.continuousPagingEnabled=false
现在,我明白所有的pyspark代码都是一个控制spark的API,那么,上面的所有命令都可以用pyspark代码重写, --conf我了解的参数与 .config(value, value)有关:
sparkSession=SparkSession.builder.appName('SparkCassandraApp').config('spark.cassandra.connection.host', 'localhost')
所以,我的问题是,如何添加我的 zip 文件?
我已经看到在 pyspark 代码中将文件上传到我的 spark session 的方法是 SparkContext.addFile()但我很困惑,因为我必须在 Spark Session 之前设置 SparkContext ,所以我是否必须设置 SparkContext ,添加我的文件然后再次添加 SparkSession 即使我重复相同的值?或者我可以通过添加源路径在 Spark session 中添加 bundle.zip 文件吗?
请帮忙,我只是想对 spark 及其工作方式有一个清晰的认识
谢谢

最佳答案

如果您正在使用 --files ,然后 Spark 会将本地文件上传到集群并使其可供所有执行程序使用,就像通过 .addFile 完成的那样.在这种情况下,您可以通过 spark.cassandra.connection.config.cloud.path 指定文件名.您不需要将文件复制到 jars 文件夹等 - 它可以放在下载的位置。
blog post that I referenced 中所述, 文件也可以位于所有执行程序可访问的任何位置,例如 S3/HDFS/HTTP/... - 在这种情况下,spark.cassandra.connection.config.cloud.path可以直接指向那个位置而无需通过 --files 指定.如果您将文件复制到所有执行程序,那么您还可以使用该文件的完整路径作为 file://path-to-secure-bundle

关于python - Pyspark 和 Cassandra 安全包.zip,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63601402/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com