gpt4 book ai didi

amazon-web-services - 在AWS Glue pyspark中设置 Spark 配置

转载 作者:行者123 更新时间:2023-12-02 19:12:06 26 4
gpt4 key购买 nike

我将AWS Glue与pySpark结合使用,并想在sparkSession中添加几个配置,例如'"spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem"spark.hadoop.fs.s3a.multiobjectdelete.enable","false""spark.serializer", "org.apache.spark.serializer.KryoSerializer""spark.hadoop.fs.s3a.fast.upload","true"。我用来初始化上下文的代码如下:

glueContext = GlueContext(SparkContext.getOrCreate())
spark = glueContext.spark_session
据我从文档中了解到的是,在提交粘合作业时,我应该将这些conf作为作业参数添加。是这种情况还是在初始化 Spark 时也可以添加它们?

最佳答案

这似乎并没有出错-不确定是否正常

hadoop_conf = spark.sparkContext._jsc.hadoopConfiguration()
hadoop_conf.set("spark.hadoop.fs.s3.maxRetries", "20")
hadoop_conf.set("spark.hadoop.fs.s3.consistent.retryPolicyType", "exponential")

关于amazon-web-services - 在AWS Glue pyspark中设置 Spark 配置,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64350445/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com