apache-spark - 对于相同的配置，Spark s3a会引发403错误-6ren

apache-spark - 对于相同的配置，Spark s3a会引发403错误

转载作者：行者123 更新时间：2023-12-02 19:47:25

43

4

以下是我所有版本的版本

<spark.version>2.3.1</spark.version>
<scala.version>2.11.8</scala.version>
<hadoop.version>2.7.7</hadoop.version>

<artifactId>aws-java-sdk</artifactId>
<version>1.7.4</version>

我将以下代码作为胖子 jar 的一部分提交给spark-submit。

spark.sparkContext.hadoopConfiguration.set("fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
spark.sparkContext.hadoopConfiguration.set("log4j.logger.org.apache.hadoop.fs.s3a", "DEBUG")

spark.sparkContext.hadoopConfiguration.set("fs.s3a.server-side-encryption-algorithm", "AES256")
spark.sparkContext.hadoopConfiguration.set("fs.s3a.endpoint", endpoint)

spark.sparkContext.hadoopConfiguration.set("fs.s3a.aws.credentials.provider", "org.apache.hadoop.fs.s3a.TemporaryAWSCredentialsProvider")
spark.sparkContext.hadoopConfiguration.set("fs.s3a.access.key", access)
spark.sparkContext.hadoopConfiguration.set("fs.s3a.secret.key", secret)
spark.sparkContext.hadoopConfiguration.set("fs.s3a.session.token", session)

spark.sparkContext.hadoopConfiguration.set("fs.s3a.proxy.host", proxyHost)
spark.sparkContext.hadoopConfiguration.set("fs.s3a.proxy.port", proxyPort.toString)
spark.sparkContext.hadoopConfiguration.set("fs.s3a.proxy.username", proxyUser)
spark.sparkContext.hadoopConfiguration.set("fs.s3a.proxy.password", proxyPass)

val credentials = new StaticCredentialsProvider(new BasicSessionCredentials(access, secret, session))
val config = new ClientConfiguration()
  .withProxyHost(proxyHost)
  .withProxyPort(proxyPort)
  .withProxyUsername(proxyUser)
  .withProxyPassword(proxyPass)
val s3Client = new AmazonS3Client(credentials, config)
s3Client.setEndpoint(endpoint)

val `object` = s3Client.getObject(new GetObjectRequest(bucket, key))
val objectData = `object`.getObjectContent
println("This works! :) " + objectData.toString)

val json = spark.read.textFile("s3a://" + bucket + "/" + key)
println("Error before here :( " + json)

使用AmazonS3Client的 call 有效

This works! :) com.amazonaws.services.s3.model.S3ObjectInputStream@3f736a16

但是我得到了以下错误，利用s3a

2018-09-12 20:45:59 INFO  S3AFileSystem:1207 - Caught an AmazonServiceException com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 403, AWS Service: Amazon S3, AWS Request ID: D8A113B7B1AB31B9, AWS Error Code: null, AWS Error Message: Forbidden, S3 Extended Request ID: AybHBDYJCeWlw2brLdL0Ezpg5PNTUs9kxUqr17xR6qnv3WTxUQ0T1Vs78aM9mG8bsjTzguePZG0=
2018-09-12 20:45:59 INFO  S3AFileSystem:1208 - Error Message: Status Code: 403, AWS Service: Amazon S3, AWS Request ID: D8A113B7B1AB31B9, AWS Error Code: null, AWS Error Message: Forbidden
2018-09-12 20:45:59 INFO  S3AFileSystem:1209 - HTTP Status Code: 403
2018-09-12 20:45:59 INFO  S3AFileSystem:1210 - AWS Error Code: null
2018-09-12 20:45:59 INFO  S3AFileSystem:1211 - Error Type: Client
2018-09-12 20:45:59 INFO  S3AFileSystem:1212 - Request ID: D8A113B7B1AB31B9
2018-09-12 20:45:59 INFO  S3AFileSystem:1213 - Stack
com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 403, AWS Service: Amazon S3, AWS Request ID: D8A113B7B1AB31B9, AWS Error Code: null, AWS Error Message: Forbidden, S3 Extended Request ID: AybHBDYJCeWlw2brLdL0Ezpg5PNTUs9kxUqr17xR6qnv3WTxUQ0T1Vs78aM9mG8bsjTzguePZG0=
    at com.amazonaws.http.AmazonHttpClient.handleErrorResponse(AmazonHttpClient.java:798)
    at com.amazonaws.http.AmazonHttpClient.executeHelper(AmazonHttpClient.java:421)
    at com.amazonaws.http.AmazonHttpClient.execute(AmazonHttpClient.java:232)
    at com.amazonaws.services.s3.AmazonS3Client.invoke(AmazonS3Client.java:3528)
    at com.amazonaws.services.s3.AmazonS3Client.getObjectMetadata(AmazonS3Client.java:976)
    at com.amazonaws.services.s3.AmazonS3Client.getObjectMetadata(AmazonS3Client.java:956)
    at org.apache.hadoop.fs.s3a.S3AFileSystem.getFileStatus(S3AFileSystem.java:892)
    at org.apache.hadoop.fs.s3a.S3AFileSystem.getFileStatus(S3AFileSystem.java:77)
    at org.apache.hadoop.fs.FileSystem.isDirectory(FileSystem.java:1439)
    at org.apache.spark.sql.execution.streaming.FileStreamSink$.hasMetadata(FileStreamSink.scala:46)
    at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:354)
    at org.apache.spark.sql.DataFrameReader.loadV1Source(DataFrameReader.scala:239)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:227)
    at org.apache.spark.sql.DataFrameReader.text(DataFrameReader.scala:693)
    at org.apache.spark.sql.DataFrameReader.textFile(DataFrameReader.scala:732)
    at org.apache.spark.sql.DataFrameReader.textFile(DataFrameReader.scala:702)
    at com.company.HelloWorld$.main(HelloWorld.scala:77)
    at com.company.HelloWorld.main(HelloWorld.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.spark.deploy.JavaMainApplication.start(SparkApplication.scala:52)
    at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:894)
    at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:198)
    at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:228)
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:137)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

据我所知，它们应该配置相同。因此，我对客户端为什么工作但s3a收到403错误感到困惑。

最佳答案

我设法通过删除AWS Java SDK解决了该问题

<dependency>
    <groupId>com.amazonaws</groupId>
    <artifactId>aws-java-sdk</artifactId>
    <version>1.7.4</version>
</dependency>

并将其替换为2.8.1版本的Hadoop AWS依赖关系。

<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-aws</artifactId>
    <version>2.8.1</version>
</dependency>

关于apache-spark - 对于相同的配置，Spark s3a会引发403错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52305231/

43

4

0

文章推荐： docker - 如何使GitLab CI/CD DIND使用不安全的注册表

文章推荐： python - 翻转 matplotlib 图的 x 轴

文章推荐： docker - 为什么Docker容器重新启动？

SharePointOnlineCredentials 引发 ComException
我正在使用 SharePoint Online 并使用 Windows Azure 托管访问 SPO 的进程。我们已将启动任务添加到 Azure 角色以安装 http://www.microsoft
python - 引发 FileNotFoundError
我有一个函数，它获取包含时间的源文件(csv 文件)，读取它，然后按顺序对行进行排序并将它们写入目标文件中。但是，如果源 csv 文件不存在，我需要引发 FileNotFoundError。我之前曾引
Python 引发 NotADirectoryError
我试图在目录不存在时引发错误，然后再打开该目录中的文件。根据this response我应该为我的问题使用最具体的异常构造函数，我认为它是 NotADirectoryError。但是运行下面的代码我得
c# - 引发/生成空引用异常背后的CLR实现是什么？
在编码/开发生命的一天或另一天，我们确实遇到了这个特殊的情况，这是最常见的异常(exception)之一。我的问题是关于的而不是。为什么(我知道当我们尝试访问实际上指向null的引用变量的属性时会引发
Python 引发/捕获异常
我想知道在 python 中是否可以在一个 except block 中引发异常并在稍后的 except block 中捕获它。我相信其他一些语言默认会这样做。这是它的样子" try: som
python - Mechanize 引发 BrowserStateError
我有以下代码: br = mechanize.Browser() br._factory.is_html = True br.form = mechanize._form.ParseString(''
oracle - TOO_MANY_ROWS 引发，但变量仍然获得一个值
我刚刚发现，如果您有一个引发 TOO_MANY_ROWS 异常的 SELECT INTO，该变量仍会从查询检索到的第一条记录中分配值。这是预期的行为吗？这是我的例子: for co in my_cu
ssh - 引发 ssh 远程主机标识的所有原因都已更改
当 SSH 显示 WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED! 我知道当您重新安装远程服务器时会发生这种情况，但我尝试列出其他原因 . 我知道如何
java - EnumMap 引发 NullPointerException
我有一个枚举和一个 EnumMap . 我将 map 放入一个类中以隐藏“字节”值。所以我有一个set(Parameter, int)和set(Parameter, boolean)方法。 publi
redis-py 引发 AttributeError
在什么情况下会redis-py引发以下 AttributeError 异常？ redis-py 不是设计来引发仅基于 redis.exceptions.RedisError 的异常吗？什么是合理的处
.net - 如何可重复地导致/引发 ReflectionTypeLoadException？
可悲的是，对此异常的引用通常具有异国情调，并且可能发生在您例如通过 Assembly.GetTypes() 枚举类型- 举个例子，它发生在我们的一个部署上，但同一组程序集在集成服务器上运行良好。为了
android - Python 引发 SyntaxError
我正在为 Android 下的特定平板电脑克隆一个存储库并获取源代码，我必须执行一个 python 脚本。当我执行它时，我收到此错误消息: Traceback (most recent call la
android - 引发 PRIORITY_MAX 通知后隐藏前台服务的状态栏通知图标
首先，执行此操作(在运行 4.4.2 的 Nexus 5 上测试): 将 PRIORITY_LOW 通知传递给 Service.startForeground()。观察通知不显示在状态栏中。使用相
python - get_num_instances 引发 InvalidVersionError
我尝试使用 AppEngine 的 python 模块 api 来获取使用基本缩放的模块的实例数。在我模块的 yaml 文件中，我明确设置了 max_instances 参数。我希望 get_num_
python - Spark 引发 OutOfMemoryError
当我如下运行我的 spark python 代码时: import pyspark conf = (pyspark.SparkConf() .setMaster("local")
python - QXmlStreamReader 引发 UnicodeEncodeError
在我的系统上，一段适用于 Python 2 的代码不适用于 Python 3。 f = open("plotwidget.svg") svgData = f.read() xml_stream = Q
PHP 引发 SQL 语法错误
我是 PHP 和 SQL 的新手，但我正在创建一个登录系统。我遇到的问题是: You have an error in your SQL syntax; check the manual that c
python - error_check 引发 ConnectionError
我有一个使用 ebaysdk 库的 python 代码，当我运行代码并输入关键字进行搜索时，我得到了这个错误。 Traceback (most recent call last): File "eba
python - Werkzeug 引发 BrokenFilesystemWarning
当我将表单数据发送到我的 Flask 应用程序时，出现以下错误。它说它将使用 UTF-8 编码，但语言环境已经是 UTF-8。这个错误是什么意思？ /home/.virtualenvs/project
python - pympler 引发 TypeError
在python2.7中，跟随pympler example : from anotherfile import somefunction, somecustomclass from os import

首页

博学

6Ren·AI

商城

apache-spark - 对于相同的配置，Spark s3a会引发403错误