amazon-web-services - 使用 Hadoop 版本 2.7.2 从 Spark 使用 S3a 协议(protocol)访问 S3-6ren

amazon-web-services - 使用 Hadoop 版本 2.7.2 从 Spark 使用 S3a 协议(protocol)访问 S3

转载作者：可可西里更新时间：2023-11-01 15:54:15

30

4

我正在尝试从 pyspark(版本 2.2.0)访问 s3(s3a 协议(protocol))，但我遇到了一些困难。

我正在使用 Hadoop 和 AWS SDK 包。

pyspark --packages com.amazonaws:aws-java-sdk-pom:1.10.34,org.apache.hadoop:hadoop-aws:2.7.2

这是我的代码:

sc._jsc.hadoopConfiguration().set("fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
sc._jsc.hadoopConfiguration().set("fs.s3a.access.key", AWS_ACCESS_KEY_ID)
sc._jsc.hadoopConfiguration().set("fs.s3a.secret.key", AWS_SECRET_ACCESS_KEY)

rdd = sc.textFile('s3a://spark-test-project/large-file.csv')
print(rdd.first().show())

我明白了:

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/Users/attazadeh/DataEngine/env/lib/python3.4/site-packages/pyspark/rdd.py", line 1361, in first
    rs = self.take(1)
  File "/Users/attazadeh/DataEngine/env/lib/python3.4/site-packages/pyspark/rdd.py", line 1313, in take
    totalParts = self.getNumPartitions()
  File "/Users/attazadeh/DataEngine/env/lib/python3.4/site-packages/pyspark/rdd.py", line 385, in getNumPartitions
    return self._jrdd.partitions().size()
  File "/Users/attazadeh/DataEngine/env/lib/python3.4/site-packages/pyspark/python/lib/py4j-0.10.4-src.zip/py4j/java_gateway.py", line 1133, in __call__
  File "/Users/attazadeh/DataEngine/env/lib/python3.4/site-packages/pyspark/sql/utils.py", line 63, in deco
    return f(*a, **kw)
  File "/Users/attazadeh/DataEngine/env/lib/python3.4/site-packages/pyspark/python/lib/py4j-0.10.4-src.zip/py4j/protocol.py", line 319, in get_return_value
py4j.protocol.Py4JJavaError: An error occurred while calling o34.partitions.
: com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 400, AWS Service: Amazon S3, AWS Request ID: 32750D3DED4067BD, AWS Error Code: null, AWS Error Message: Bad Request, S3 Extended Request ID: jAhO0tWTblPEUehF1Bul9WZj/9G7woaHFVxb8gzsOpekam82V/Rm9zLgdLDNsGZ6mPizGZmo6xI=
    at com.amazonaws.http.AmazonHttpClient.handleErrorResponse(AmazonHttpClient.java:798)
    at com.amazonaws.http.AmazonHttpClient.executeHelper(AmazonHttpClient.java:421)
    at com.amazonaws.http.AmazonHttpClient.execute(AmazonHttpClient.java:232)
    at com.amazonaws.services.s3.AmazonS3Client.invoke(AmazonS3Client.java:3528)
    at com.amazonaws.services.s3.AmazonS3Client.headBucket(AmazonS3Client.java:1031)
    at com.amazonaws.services.s3.AmazonS3Client.doesBucketExist(AmazonS3Client.java:994)
    at org.apache.hadoop.fs.s3a.S3AFileSystem.initialize(S3AFileSystem.java:297)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2669)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:94)
    at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2703)
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2685)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:373)
    at org.apache.hadoop.fs.Path.getFileSystem(Path.java:295)
    at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:258)
    at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:229)
    at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:315)
    at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:194)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:252)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:250)
    at scala.Option.getOrElse(Option.scala:121)
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:250)
    at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:252)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:250)
    at scala.Option.getOrElse(Option.scala:121)
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:250)
    at org.apache.spark.api.java.JavaRDDLike$class.partitions(JavaRDDLike.scala:61)
    at org.apache.spark.api.java.AbstractJavaRDDLike.partitions(JavaRDDLike.scala:45)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
    at py4j.Gateway.invoke(Gateway.java:280)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.GatewayConnection.run(GatewayConnection.java:214)
    at java.lang.Thread.run(Thread.java:748)

这是 AWS Java SDK 的错误吗？我是 spark 的新手，所以我不知道除了 AWS Error Code: null

之外是否还有其他方法可以从 AWS 获取更好的日志记录信息

最佳答案

对于它的值(value)，我在 aws 上的 spark-defaults.conf 文件中有这一行:

spark.jars.packages com.amazonaws:aws-java-sdk:1.11.99,org.apache.hadoop:hadoop-aws:2.7.2

我还确保我在设置 EC2 时使用的安全组可以访问 s3。

在这两件事之后，我从 s3 读取文件就没有问题了:

%pyspark
df = spark.read.csv("s3a://my_bucket/name/")

或者，如果您使用 AWS EMR，您应该能够立即访问 s3:

%pyspark
df = spark.read.csv("s3://my_bucket/name/")

关于amazon-web-services - 使用 Hadoop 版本 2.7.2 从 Spark 使用 S3a 协议(protocol)访问 S3，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45968326/

30

4

0

文章推荐： c++ - Windbg 设置依赖于调用堆栈的条件断点

文章推荐： c# - 字符串与字节数组，性能

文章推荐： c++ - 如何开始为 C++ 库编写 Perl 绑定(bind)？

service - start 和 service start 有什么区别
我正在使用 choronos，它建议使用 start/stop 命令开始停止，如下所示开始计时停止计时但是，我正在编写 puppet manifest，它只适用于下面的服务命令。服务计时开始
Services.exe是什么进程？Services.exe病毒吗？Services.exe占CPU情况
来历及作用 services.exe进程程序文件是由微软公司为其发布的Windows操作系统定义的一个系统进程，常见于Windows 2000/XP/Vista/2007等系统中，被描述为服务和控
windows-services - Installutil不会卸载: “The specified service does not exist as an installed service”
我一直在尝试使用installutil:installutil /u GSIS.FileMoverService.exe安装Windows服务。我得到的输出是: Uninstalling assem
service-worker - 在一个域中推荐一个顶级 Service Worker 或多个 Service Worker？
如果一个域有多个团队和多个 Web 应用程序，那么注册 Service Worker 来管理整个站点的最佳建议是什么？具有范围的顶级服务 worker /或子域中的多个服务 worker ？由于一个域
java - org.jboss.msc.service.ServiceNotFoundException : Service service jboss. 找不到 ejb.default-resource-adapter-name-service
我已经在 eclipse 中创建了企业项目。动态web项目和ejb项目对企业项目有借鉴意义。当我运行管理员(企业项目)运行时选择 wildfly 服务器 18。我收到以下错误。谁能告诉我我错过了什么。
service - 类 javax.xml.ws.Service 中的构造函数 Service 无法应用于给定类型
我已经使用 apache-cxf-2.7.4 创建了一个 Web 服务。我进入了我的项目中制作的类(class)。我的项目中的库是: math3-commons-3.2.jar XStream-1.4
windows-services - AppFabric缓存错误:The AppFabric Caching Service service terminated unexpectedly
我在域中的 Virtual Box 中运行集群计算机，默认情况下服务在 Network 服务下运行，服务一直停止，事件日志中出现以下错误。请从下面的错误日志中查找错误详细信息。任何帮助都会很棒。 L
c# - 用于用户表示的 Service Fabric Service 与 Service Fabric Actors
在我的应用程序中，用户可以在 map 上发布事件。应用程序的入口点是一个无状态的 web api 服务。为了在内部代表用户，我想要一个用户服务。我应该何时使用 Reliable Stateful Ac
service - "Service failed to start - Verify that you have sufficient privileges to start system services"
当我尝试运行在WIX中创建的安装程序时，出现以下错误消息: “服务'Report Generator Service'(报告生成器服务)无法启动。请验证您是否具有启动系统服务的足够特权”。我已经在这
amazon-web-services - AWS ECS : Invalid service in ARN (Service: AmazonECS; . ..)
尝试使用 cloudformation 创建 ECS 服务(在 Fargate 上)但出现错误: Invalid service in ARN (Service: AmazonECS; Status
windows-services - 如何以编程方式停止Windows Service？
我正在编写一个简单的Windows服务，该服务每个月向所有员工发送一封电子邮件。我的问题是，完成后如何停止自我？我是该领域的新手，请帮帮我。非常感谢。它将部署在服务器上以每月运行。我没有开始做这件事
service-worker - 从 Service Worker 中获取 Service Worker id 或 date
有谁知道是否有办法在 service worker 中获取此号码或日期: 将我的服务 worker 缓存命名为 cache-1182 会很方便或 cache-20171127171448 我想在安装事
powershell - 启动服务: Failed to start service 'Microsoft Service Fabric Host Service (FabricHostSvc)'
我想开始使用 Azure Service Fabric 技术。我按照this document工作并安装最新的SDK。安装后，我打开 PowerShell(“以管理员身份运行”)命令行窗口并写入这些
ruby-on-rails - PG::UndefinedTable: 错误:关系 "services"不存在 LINE 1: SELECT "services".* FROM "services"
我在使用 whenever gem 时遇到了一些问题。我创建了一个 rake 任务，当我自己启动它时它工作得很好但是当我在日志中收到以下消息时尝试自动执行它: ActiveRecord::Statem
azure-service-fabric - "HTTP Error 503. The service is unavailable"与 Service Fabric 上的 WebListener 共享端口
我想在 service fabric 集群中为两个不同的 web 应用程序(webpi/website)共享 http/80 端口，应用程序必须有 2 个不同的主机名: mywebapi.com 和
java - org.hibernate.service.UnknownServiceException : Unknown service requested [org. hibernate.ogm.service.impl.OgmConfigurationService]
我创建了一个使用 MongoDB 实现 hibernate OGM 的应用程序。它在 Eclipse 中运行得很好，但是，当我构建一个 fat jar 并尝试运行它时，出现以下错误: Exceptio
Python Selenium 异常 AttributeError : "' Service' object has no attribute 'process' "in selenium. webdriver.ie.service.Service
我有一个 Selenium Python 测试套件。它开始运行，但几分钟后抛出以下错误: Exception AttributeError: "'Service' object has no attr
service - Centos 7 - 来自/etc/systemd/system/san.service 的服务未使用 systemctl start san.service 运行
我按照此链接的说明进行操作:https://www.thegeekdiary.com/centos-rhel-7-how-to-make-custom-script-to-run-automatica
web-services - JAVA JAX-WS NullPointerException 在 javax.xml.ws.Service.getPort(Service.java :188)
我在 ubuntu 下的 jboss 上部署了简单的“HelloWorld”Web 服务。我创建了简单的客户端，但我无法让它工作。每次运行客户端时，我都会收到 NullPointerExceptio
service-worker - Service Worker 中未触发定期同步
我正在尝试为我的网站使用后台定期同步。我正在使用 localhost 并在 1*1000 毫秒时注册 periodicsync 事件，但这根本不会触发。我看过这个demo ，但即使我将该网站安装为应

首页

博学

6Ren·AI

商城

amazon-web-services - 使用 Hadoop 版本 2.7.2 从 Spark 使用 S3a 协议(protocol)访问 S3