apache-spark - 无法使用 Spark 2.2 访问 S3 数据-6ren

apache-spark - 无法使用 Spark 2.2 访问 S3 数据

转载作者：行者123 更新时间：2023-12-01 23:42:42

我将大量数据上传到我想要的 S3 存储桶，以便使用 Spark 和 Zeppelin 进行分析/可视化。然而，我仍然坚持从 S3 加载数据。

我做了一些阅读，以便将它们整合在一起，并免除我血腥的细节。我正在使用 docker 容器 p7hb/docker-spark作为 Spark 安装和我从 S3 读取数据的基本测试派生 from here :

我启动容器以及其中的主进程和从进程。我可以通过查看暴露在端口 8080 上的 Spark Master WebUI 来验证这项工作。此页面确实列出了工作人员并在标题“已完成的应用程序”下保留了我所有失败尝试的日志。所有这些都在状态FINISHED .

我开一个bash在该容器内并执行以下操作:

a) 导出环境变量 AWS_ACCESS_KEY_ID和 AWS_SECRET_ACCESS_KEY ，如建议 here .

b) 开始 spark-shell .为了访问 S3，似乎需要加载一些额外的包。浏览SE我特别发现this ，它教会了我，我可以使用 --packages加载所述包的参数。基本上我运行 spark-shell --packages com.amazonaws:aws-java-sdk:1.7.15,org.apache.hadoop:hadoop-aws:2.7.5 (，对于版本的任意组合)。

c) 我运行以下代码
sc.hadoopConfiguration.set("fs.s3a.endpoint", "s3-eu-central-1.amazonaws.com")sc.hadoopConfiguration.set("fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")sc.hadoopConfiguration.set("com.amazonaws.services.s3.enableV4", "true")val sonnets=sc.textFile("s3a://my-bucket/my.file")val counts = sonnets.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _)

然后我收到各种不同的错误消息，具体取决于我在 2b) 中选择的版本。

我想 2a)、b/c 没有问题，我收到错误消息 Unable to load AWS credentials from any provider in the chain如果我不提供这些。 This is a known error new users seem to make.

在尝试解决这个问题时，我从 here 中选择了或多或少的随机版本。和 there对于两个额外的包裹。我在 SE 的某个地方读到 hadoop-aws:2.7 应该是正确的选择，因为 Spark 2.2 基于 Hadoop 2.7。据说需要将 aws-java-sdk:1.7 与该版本的 hadoop-aws 一起使用。

任何!我尝试了以下组合

--packages com.amazonaws:aws-java-sdk:1.7.4,org.apache.hadoop:hadoop-aws:2.7.1 ，这会产生常见的错误请求 400 错误。
许多问题都可能导致该错误，如上所述，我的尝试包含了我在此页面上能够找到的所有内容。上面的描述包含s3-eu-central-1.amazonaws.com作为端点，而其他地方使用 s3.eu-central-1.amazonaws.com .根据 enter link description here ，两个端点名称都应该有效。我确实尝试了两者。

--packages com.amazonaws:aws-java-sdk:1.7.15,org.apache.hadoop:hadoop-aws:2.7.5 ，在这两种情况下都是最新的微型版本，我收到错误消息

java.lang.NoSuchMethodError: com.amazonaws.services.s3.transfer.TransferManager.<init>(Lcom/amazonaws/services/s3/AmazonS3;Ljava/util/concurrent/ThreadPoolExecuto
r;)V

--packages com.amazonaws:aws-java-sdk:1.11.275,org.apache.hadoop:hadoop-aws:2.7.5 , 我也收到

java.lang.NoSuchMethodError: com.amazonaws.services.s3.transfer.TransferManager.<init>(Lcom/amazonaws/services/s3/AmazonS3;Ljava/util/concurrent/ThreadPoolExecutor;)V

--packages com.amazonaws:aws-java-sdk:1.11.275,org.apache.hadoop:hadoop-aws:2.8.1 , 我得到

java.lang.IllegalAccessError: tried to access method org.apache.hadoop.metrics2.lib.MutableCounterLong.<init>(Lorg/apache/hadoop/metrics2/MetricsInfo;J)V from class org.apache.hadoop.fs.s3a.S3AInstrumentation

--packages com.amazonaws:aws-java-sdk:1.11.275,org.apache.hadoop:hadoop-aws:2.8.3 , 我也收到

java.lang.IllegalAccessError: tried to access method org.apache.hadoop.metrics2.lib.MutableCounterLong.<init>(Lorg/apache/hadoop/metrics2/MetricsInfo;J)V from class org.apache.hadoop.fs.s3a.S3AInstrumentation

--packages com.amazonaws:aws-java-sdk:1.8.12,org.apache.hadoop:hadoop-aws:2.8.3 , 我也收到

java.lang.IllegalAccessError: tried to access method org.apache.hadoop.metrics2.lib.MutableCounterLong.<init>(Lorg/apache/hadoop/metrics2/MetricsInfo;J)V from class org.apache.hadoop.fs.s3a.S3AInstrumentation

--packages com.amazonaws:aws-java-sdk:1.11.275,org.apache.hadoop:hadoop-aws:2.9.0 , 我也收到 java.lang.NoClassDefFoundError: org/apache/hadoop/fs/StorageStatistics

而且，为了完整起见，当我不提供 --packages 时参数，我得到 java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.fs.s3a.S3AFileSystem not found .

目前似乎没有任何效果。然而，关于这个主题的 Q/A 太多了，谁知道这样做的方式是什么。这一切都在本地模式下，因此几乎没有其他错误来源。我访问 S3 的方法一定是错误的。它是如何正确完成的？

编辑1:

所以我又花了一天时间，没有任何实际进展。据我所知，从 Hadoop 2.6 开始，Hadoop 不再内置对 S3 的支持，而是通过其他库加载它，这些库不是 Hadoop 的一部分，完全由自己管理。除了所有的杂乱之外，我最终想要的图书馆似乎是 hadoop-aws .它有一个网页 here它带有我称之为权威信息的信息:

The versions of hadoop-common and hadoop-aws must be identical.

关于此信息的重要一点是， hadoop-common实际上确实附带了 Hadoop 安装。每个 Hadoop 安装都有一个相应的 jar 文件，因此这是一个可靠的起点。我的容器有一个文件 /usr/hadoop-2.7.3/share/hadoop/common/hadoop-common-2.7.3.jar所以可以假设 2.7.3 是我需要的版本 hadoop-aws .

在那之后它变得模糊。 Hadoop 版本 2.7.x 在内部发生了一些事情，因此它们与 aws-java-sdk 的更新版本不兼容。，这是 hadoop-aws 所需的库.网上充斥着使用1.7.4版本的建议， for example here ，但是 other comments建议对 2.7.x 使用 1.7.14 版。

所以我使用 hadoop-aws:2.7.3 再次运行和 aws-java-sdk:1.7.x , 与 x范围从 4 到 14。没有任何结果，我总是以错误 400，错误请求结束。

我的 Hadoop 安装发货 joda-time 2.9.4.我读到问题已通过 Hadoop 2.8 解决。我想我会继续使用更新的版本构建我自己的 docker 容器。

编辑 2

移至 Hadoop 2.8.3。它现在才有效。事实证明，您甚至根本不必处理 JAR。 Hadoop 附带了用于访问 AWS S3 的工作 JAR。它们隐藏在 ${HADOOP_HOME}/share/hadoop/tools/lib默认情况下不会添加到类路径中。我只是将 JARS 加载到该目录中，如上所述执行我的代码，现在它可以工作了。

最佳答案

正如您所发现的那样，将 AWS 开发工具包 JAR 与其他任何东西混合和匹配是徒劳的。您需要构建 Hadoop 时使用的 AWS JAR 版本，以及构建 Jackson AWS 时使用的版本。哦，不要尝试混合任何(不同的 amazon-* JAR、不同的 hadoop-* JAR、不同的 jackson-* JAR)；他们都进入锁同步。

对于 Spark 2.2.0 和 Hadoop 2.7，请使用 AWS 1.7.4 工件，并确保如果您使用的是 Java 8，则 Joda 时间 > 2.8.0，例如 2.9.4。这可能会导致 400 个“错误的身份验证问题”。

否则，尝试 Troubleshooting S3A

关于apache-spark - 无法使用 Spark 2.2 访问 S3 数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48750464/

文章推荐： uml - 如何在 PlantUML 中创建嵌套框？

文章推荐： lua - Lua中如何去除字符串中的空格？

文章推荐： ios - AVAudioConverter.convertToBuffer 抛出错误代码 -50

文章推荐： Jenkins:在上游更改上触发多分支管道

java - s = s + s 和 s += s 之间的区别
这个问题在这里已经有了答案: Why don't Java's +=, -=, *=, /= compound assignment operators require casting? (11 个
c# - ORA-21500 : internal error code, 参数 : [%s], [%s]、[%s]、[%s]、[%s]、[%s]、[%s]、[%s]
我搜索了很多，但没有一个链接能帮助我解决这个问题。我得到了 ORA-21500: internal error code, arguments: [%s], [%s], [%s], [%s], [%s
regex - 正则表达式中的 `(\S.*\S)` 和 `^\s*(.*)\s*$` 有什么区别？
我正在做 RegexOne 正则表达式教程，它有一个 question关于编写正则表达式以删除不必要的空格。教程中提供的解决方案是 We can just skip all the starting
javascript - |\s 的目的/作用是什么？在 ([\s\S]+|\s?)
([\s\S]+|\s?) 中 |\s? 的目的或作用是什么？如果没有它，表达式会不会与 ([\s\S]+) 相同？最佳答案这不是完全相同的。 ([\s\S]+|\s?) 会匹配空字符串，而 ([
java - 这个正则表达式有一组还是两组？ "^\\s*(.*?)\\s+-\\s+' (.* )'\\s*$"
这个正则表达式有一组还是两组？我正在尝试使用第二组访问 bookTitle 但出现错误: Pattern pattern = Pattern.compile("^\\s*(.*?)\\s+-\\s+
c - 这个迭代如何工作 : for(++s ; *s;++s)
在 C 中给定一个字符串指针 s，下面的迭代会做什么？即它以什么方式遍历字符串？ for (++s ; *s; ++s); 最佳答案 for (++s ; *s;++s) 表示将指针 s 递增到字符
javascript - 正则表达式 '\s+-\s*|\s*-\s+' 无法正常工作
我正在用一个 node.js 应用程序解析一个大列表并有这段代码 sizeCode = dbfr.CN_DESC.split('\s+-\s*|\s*-\s+') 这似乎不起作用，因为它返回了 [ '
c - 查找字符串结尾 : *s++ VS *s then s++
我正在编写一个简单的字符串连接程序。该程序按照我发布的方式运行。但是，我首先使用以下代码编写它来查找字符串的结尾: while (*s++) ; 但是，这个方法并没有奏效。我传递给它的字符串
java - 正则表达式 (?<=[\\S])[\\S]*\\s* 的作用是什么？
这个问题已经有答案了: What does (?和aramchand来自Mohandas Karamchand G 因此，在使用这些匹配来分割字符串后，您最终会得到 {"M", "K", "G"} 注
java - 映射到列表
~~我正在尝试转换 Map到 List使用 lambda。本质上，我想将键和值与 '=' 连接起来之间。这看起来微不足道，但我找不到如何去做。例如 Map map = new HashMap<>();~~

C 指针 : difference between while(*s++) { ;} and while(*s) { s++;}
我正在经历 K & R，并且在递增指针时遇到困难。练习 5.3(第 107 页)要求您使用指针编写一个 strcat 函数。在伪代码中，该函数执行以下操作: 将 2 个字符串作为输入。找到字符串

c++ - 在 S s = S() 中是否保证不会创建临时文件？
在下面的代码中，pS 和 s.pS 在最后一行是否保证相等？也就是说，在语句S s = S();中，是否可以确定不会构造一个临时的S？ #include using namespace std; s

c# - 关于将类型 'int' 隐式转换为 'char' ，为什么 `s[i] += s[j]` 和 `s[i] = s[i]+s[j] ` 不同
演示示例代码: public void ReverseString(char[] s) { for(int i = 0, j = s.Length-1; i < j; i++, j--){

PowerShell New-TimeSpan 友好地显示为天(s)小时(s)分钟(s)秒(s)
我一直在寻找类似于 .NET examples 中的示例的 PowerShell 脚本.取一个 New-TimeSpan 并显示为 1 天 2 小时 3 分钟 4 秒。排除其零的地方，在需要的地方添加

python - 对于 string_list : s = func(s) can't change string s 中的 s
def func(s): s = s + " is corrected" return s string_list = ["She", "He"] for s in string_li

python - 折叠和 (lambda s : "". join(s.split())) 或 (lambda s: s)
我是 python 的新手。当我在互联网上搜索 lambda 时。我在 lambda_functions 中找到了这个声明. processFunc = collapse and (lambda s:

regex - 如何为包含 "a"s、 "b"s 和 "c"s 但不超过 2 "b"s 和 3 "c"s 的所有字符串编写简洁的正则表达式
我最近开始学习正则表达式，并试图为上面的问题写一个正则表达式。如果限制只放在一个字母上(例如不超过 2 个“b”)，这并不困难。那么答案就是:a* c*(b|ε)a* c*(b|ε)a* c* 但是

python - npm 安装错误导入系统；打印 "%s.%s.%s"
当我运行 npm install 时出现以下错误，但我无法修复它。我试过:npm install -g windows-build-tools 也没有修复这个错误 ERR! configure

haskell - 在 Haskell 中将 "->"s 替换为 "→"s，将 "=>"s 替换为 "⇒"s 等等
有很多有趣的haskell网上可以找到片段。 This post可以在 this (awesome) Stack Overflow question 下找到. The author写道: discou

regex - 在Perl中，s/^\s +//和s/\s + $//有什么区别？
我知道以下三行代码旨在将字符串提取到$ value中并将其存储在$ header中。但是我不知道$value =~ s/^\s+//;和$value =~ s/\s+$//;之间有什么区别。 $val

行者123

个人简介
我是一名优秀的程序员,十分优秀！

作者热门文章

html - 出于某种原因，IE8 对我的 Sass 文件中继承的 html5 CSS 不友好？

JMeter 在响应断言中使用 span 标签的问题

html - 在 :hover and :active? 上具有不同效果的 CSS 动画

html - 相对于居中的 html 内容固定的 CSS 重复背景？

滴滴打车优惠券免费领取

全站热门文章

使用postgis数据库进行多边形裁切线

websocket-sharp：.NET平台上的WebSocket客户端与服务器开源库

unordered_map比map慢？

老奶奶看了都会的WSL2连接USB设备教程！

万字图文：SaaS业务架构、价值流、业务能力、业务流程、业务对象、组织架构

Canvas简历编辑器-选中绘制与拖拽多选交互方案

.NET开发的分流抢票软件，不做广告、不收集隐私

nginx简单实践：静态资源部署、URL重写【nginx实践系列之一】

永远不要轻易设置Oracle的隐藏参数，哪怕是DRM

一个超经典WinForm,WPF卡死问题的终极反思

首页

博学

6Ren·AI

商城

apache-spark - 无法使用 Spark 2.2 访问 S3 数据