apache-spark - Spark 使用 sc.textFile ("s3a://bucket/filePath"读取 s3 )。 java.lang.NoSuchMethodError : com. amazonaws.services.s3.transfer.TransferManager-6ren

apache-spark - Spark 使用 sc.textFile ("s3a://bucket/filePath"读取 s3 )。 java.lang.NoSuchMethodError : com. amazonaws.services.s3.transfer.TransferManager

转载作者：行者123 更新时间：2023-12-03 07:45:38

25

4

我已将自爆 jar 添加到spark/jars路径中。

hadoop-aws-2.7.3.jar
aws-java-sdk-s3-1.11.126.jar
aws-java-sdk-core-1.11.126.jar
spark-2.1.0

在 Spark-Shell 中

scala> sc.hadoopConfiguration.set("fs.s3a.access.key", "***")

scala> sc.hadoopConfiguration.set("fs.s3a.secret.key", "***")

scala> val f = sc.textFile("s3a://bucket/README.md")

scala> f.count

java.lang.NoSuchMethodError: com.amazonaws.services.s3.transfer.TransferManager.(Lcom/amazonaws/services/s3/AmazonS3;Ljava/util/concurrent/ThreadPoolExecutor;)V at org.apache.hadoop.fs.s3a.S3AFileSystem.initialize(S3AFileSystem.java:287) at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2669) at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:94) at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2703) at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2685)
at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:373) at org.apache.hadoop.fs.Path.getFileSystem(Path.java:295) at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:258) at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:229) at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:315) at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:202)
at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:252) at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:250) at scala.Option.getOrElse(Option.scala:121) at org.apache.spark.rdd.RDD.partitions(RDD.scala:250) at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35) at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:252) at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:250) at scala.Option.getOrElse(Option.scala:121) at org.apache.spark.rdd.RDD.partitions(RDD.scala:250) at org.apache.spark.SparkContext.runJob(SparkContext.scala:1958) at org.apache.spark.rdd.RDD.count(RDD.scala:1157) ... 48 elided

“java.lang.NoSuchMethodError:com.amazonaws.services.s3.transfer.TransferManager”是由不匹配的 jar 引发的？ (hadoop-aws、aws-java-sdk)
要从 Spark 应用程序访问存储在 Amazon S3 中的数据，应使用 Hadoop 文件 API。那么hadoop-aws.jar包含Hadoop文件APIS还是必须运行hadoop env？

最佳答案

JAR 不匹配； AWS SDK 在各个版本中都非常脆弱。

Hadoop S3A 代码位于 hadoop-aws JAR 中；还需要hadoop-common。 Hadoop 2.7 是针对 AWS S3 SDK 1.10.6 构建的。 (*更新:不，是 1.7.4。迁移到 1.10.6 进入了 Hadoop 2.8)HADOOP-12269

您必须使用该版本。如果您想使用 1.11 JAR，那么您需要查看 hadoop 源代码树并自行构建branch-2。好消息:它使用阴影 AWS SDK，因此其版本的 jackson 和 joda time 不会破坏任何东西。哦，如果您查看 Spark Master，并使用 -Phadoop-cloud 配置文件进行构建，它会提取正确的内容来正确设置 Spark 的依赖项。

更新:2017 年 10 月 1 日:Hadoop 2.9.0-alpha 和 3.0-beta-1 使用 1.11.199；假设发布版本将是该版本或更新版本。

关于apache-spark - Spark 使用 sc.textFile ("s3a://bucket/filePath"读取 s3 )。 java.lang.NoSuchMethodError : com. amazonaws.services.s3.transfer.TransferManager，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43929025/

25

4

0

文章推荐： .net - 有没有办法解决 'handle'Environment.FailFast？

文章推荐： apache-spark - 在 PySpark 中按多列分区(列表中的列)

文章推荐： react-native - 无法从 Android 设备重新加载应用程序

scala - sc.textFile Scala错误
我正在尝试从写入文件的路径读取文件。我正在关注文档，因此我在使用以下代码行: val data = sc.textFile(PATH) 这给出了编译错误: 找不到:值sc。我找到了涉及应在终端中给
凯撒密码 (C) : Read from textfile
我正在研究凯撒密码，我的代码已基本完成，但我在从文本文件 (txt) 读取句子、将其存储在数组中、解码并再次将其存储在文本文件中时遇到问题。到目前为止，我已经成功打开文本文件，逐行读取它，并将其显示
javascript - JS : Textfile to JSON
我是 JS 的初学者，需要一些帮助。我有一个如下所示的文本文件: JOBID,NAME,USER,NODELIST,CPUS,STATE,REASON 2527,_DP-2-Q-095-84-1-50
C# 读写 TextFile 在中间结束
我运行一个方法，有三个部分，第 1 部分和第 3 部分都是“读取文本文件”，第二部分是将字符串保存到文本文件， // The Save Path is the text file's Path, u
python - PySpark textFile 命令中的正则表达式
我试图弄清楚在选择多个感兴趣的文件时我可以将这个命令推到什么程度。例如，我使用以下通配符来选取多个目录中感兴趣的所有文件，但我想使用正则表达式等来限制目录名称的长度。 lines = sc.textF
hadoop - SparkContext.textFile 是如何工作的？
我试图深入理解 textFile 方法，但我认为我的缺乏 Hadoop 知识让我退缩了。让我摆出我的理解，也许你可以纠正任何不正确的地方当 sc.textFile(path) 被调用时，然后使用 d
TextFile 的 Hadoop 自定义拆分
我有一个相当大的文本文件，我想将其转换为 SequenceFile。不幸的是，该文件由 Python 代码组成，逻辑行跨越多个物理行。例如，打印“Blah Blah\ ...等等等等" 每条逻辑行都
hadoop - 'SparkContext' 对象没有属性 'textfile'
我尝试使用以下代码加载文件: textdata = sc.textfile('hdfs://localhost:9000/file.txt') 错误信息: AttributeError: 'Spark
scala - Spark textFile 与 WholeTextFiles
我了解textFile的基础理论为每个文件生成分区，而 wholeTextFiles生成一个pair值的RDD，其中key是每个文件的路径，value是每个文件的内容。现在，从技术的角度来看，两者之
python - 在 sc.textFile 中加载本地文件
我尝试加载本地文件，如下所示 File = sc.textFile('file:///D:/Python/files/tit.csv') File.count() 完整回溯 IllegalArgume
ios - Ionic TextFile 清除按钮键盘行为 iOS
我的 Ionic 应用程序中有一个文本输入，在同一范围内有 2 个按钮。第一个按钮用于进行搜索，第二个按钮用于清除文本输入。当我点击清除按钮时，我看到了奇怪的行为，文本输入被清除并且键盘重新出现但文本
c# - 提高 TextFile 的读取效率(更大的文件类型)
以下是我的代码，但一次不能处理超过 500 行。需要在行尾加一个,，同时进行检测。我目前正在做的是将它们分成 2 个不同的文本框，然后通过复制粘贴保存我需要的文本框，但如果文件太大，应用程序似乎会挂
hadoop - spark sc.textfile 的详细工作原理是什么？
我想详细了解 sc.textfile 的工作原理。我在 SparkContext.scala 中找到了文本文件源代码，但它们包含很多关于调度程序、阶段和提交的任务的信息。我想要的是sc.textfi
scala - 使用 sc.textFile() 加载本地文件以激发
问题如何使用sc.textFile从本地文件系统加载文件到Spark？我需要更改任何 -env 变量吗？此外，当我在未安装 Hadoop 的 Windows 上尝试相同操作时，我遇到了同样的错误。
python - Pyspark sc.textFile() 没有完全加载文件
我从 Cloudera quickstart docker 容器上的 Python Spark (v 1.6.0) 开始。我在/user/root/access_log.txt 下的 hdfs 中成功
python - 分区数如何影响 `wholeTextFiles` 和 `textFiles` ？
在 spark 中，我了解如何使用 wholeTextFiles 和 textFiles，但我不确定何时使用哪个。这是我目前所知道的: 处理不按行分割的文件时，应使用wholeTextFiles，否则
java - 使用 sc.textFile 从子目录递归获取文件内容
SparkContext textFile 似乎只希望文件出现在给定的目录位置 - 它也没有 (a) 递归或 (b) 甚至 support 目录(尝试将目录读取为文件) 关于如何构建递归的任何建议 -
Athena Unload TEXTFILE with null(Athena使用NULL卸载TEXTFILE)
I am currently utilizing the UNLOAD feature in AWS Athena, where I query something like:我目前正在使用AW
scala - sc.textFile 之后的 zipWithIndex 会给出正确的行号吗？
说如果我这样做，如下所示。 val rdd = sc.textFile("someFile.txt") val rddWithLines = rdd.zipWithIndex zipWithIndex
scala - 如何使用正则表达式在 sc.textFile 中包含/排除某些输入文件？
我试图在文件中使用 Apache spark 过滤掉特定文件的日期到 RDD 函数 sc.textFile() . 我尝试执行以下操作: sc.textFile("/user/Orders/20150

首页

博学

6Ren·AI

商城

apache-spark - Spark 使用 sc.textFile ("s3a://bucket/filePath"读取 s3 )。 java.lang.NoSuchMethodError : com. amazonaws.services.s3.transfer.TransferManager