amazon-web-services - 从 Google 的 dataproc 读取 S3 数据-6ren

amazon-web-services - 从 Google 的 dataproc 读取 S3 数据

转载作者：行者123 更新时间：2023-12-02 20:58:42

26

4

我正在我创建的集群上通过 Google 的 dataproc 运行 pyspark 应用程序。在一个阶段，应用程序需要访问 Amazon S3 目录中的目录。在那个阶段，我收到错误:

AWS 访问 key ID 和 secret 访问 key 必须指定为 s3 URL 的用户名或密码(分别)，或者通过设置 fs.s3.awsAccessKeyId 或 fs.s3.awsSecretAccessKey 属性(分别)。

我登录到集群的头节点，并使用我的 AWS_ACCESS_KEY_ID 和 AWS_SECRET_ACCESS_KEY 信息设置/etc/boto.cfg，但这并没有解决访问问题。

(1) 关于如何从 dataproc 集群访问 AWS S3 还有其他建议吗？

(2) 另外，dataproc 用于访问集群的用户名是什么？如果我知道这一点，我可以在集群上为该用户设置 ~/.aws 目录。

谢谢。

最佳答案

由于您使用的是 Hadoop/Spark 接口(interface)(如 sc.textFile )，所以一切确实应该通过 fs.s3.* 完成。或fs.s3n.*或fs.s3a.*键而不是尝试通过任何 ~/.aws 连接或/etc/boto.cfg设置。您可以通过几种方法将这些设置连接到您的 Dataproc 集群:

在集群创建时:

gcloud dataproc clusters create --properties \
    core:fs.s3.awsAccessKeyId=<s3AccessKey>,core:fs.s3.awsSecretAccessKey=<s3SecretKey> \
    --num-workers ...

core这里的前缀表示您希望将设置放在 core-site.xml 中文件，如 Cluster Properties documentation 中所述.

或者，在作业提交时，如果您使用 Dataproc 的 API:

gcloud dataproc jobs submit pyspark --cluster <your-cluster> \
    --properties spark.hadoop.fs.s3.awsAccessKeyId=<s3AccessKey>,spark.hadoop.fs.s3.awsSecretAccessKey=<s3SecretKey> \
    ...

在本例中，我们将属性作为 Spark 属性传递，Spark 提供了一种方便的机制来将“hadoop”conf 属性定义为 Spark conf 的子集，只需使用 spark.hadoop.*字首。如果您通过 SSH 在命令行提交，则相当于:

spark-submit --conf spark.hadoop.fs.s3.awsAccessKeyId=<s3AccessKey> \
    --conf spark.hadoop.fs.s3.awsSecretAccessKey=<s3SecretKey>

最后，如果您想在集群创建时进行设置，但又不想在 Dataproc 元数据中显式设置访问 key ，则可以选择使用 initialization action反而。有一个方便的工具，名为 bdconfig它应该出现在您可以轻松修改 XML 设置的路径中:

#!/bin/bash
# Create this shell script, name it something like init-aws.sh
bdconfig set_property \
    --configuration_file /etc/hadoop/conf/core-site.xml \
    --name 'fs.s3.awsAccessKeyId' \
    --value '<s3AccessKey>' \
    --clobber
bdconfig set_property \
    --configuration_file /etc/hadoop/conf/core-site.xml \
    --name 'fs.s3.awsSecretAccessKey' \
    --value '<s3SecretKey>' \
    --clobber

将其上传到某处的 GCS 存储桶，并在集群创建时使用它:

gsutil cp init-aws.sh gs://<your-bucket>/init-aws.sh
gcloud dataproc clustres create --initialization-actions \
    gs://<your-bucket>/init-aws.sh

虽然 Dataproc 元数据确实像任何其他用户数据一样进行静态加密和严格保护，但使用 init 操作有助于防止无意中向站在屏幕后面的人员显示您的访问 key / secret ，例如在查看 Dataproc 集群属性时向站在屏幕后面的人显示。

关于amazon-web-services - 从 Google 的 dataproc 读取 S3 数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39377635/

26

4

0

文章推荐： sage - 如何使用 SageMath 求解线性方程组？

文章推荐： wix - 如何在程序和功能中自定义卸载对话框

文章推荐： Angular2 使 ViewContainerRef 选择器动态化

文章推荐： github - 在 github repo 中查找所有用户提交

amazon-cloudsearch - Amazon CloudSearch 和 Amazon Kendra
我想知道 Amazon CloudSearch 和 Kendra 之间的主要区别是什么？为什么同一家公司的产品有两种不同的工具相互竞争？两者看起来都一样，我不确定功能有何不同。它是如何相互区分的。 A
amazon-simpledb - Amazon SimpleDB 与 Amazon RDS
我在一家小型电子商务网站工作，我们希望迁移到所有 Amazon 托管服务，但我不确定 RDS 和 SimpleDB 的确切区别。 RDS可以用MySQL，SimpleDB不行吗？最佳答案 RDS 基
amazon-ec2 - Amazon EC2 与 Amazon EMR
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 7年前关闭。 Improve t
amazon-ec2 - Amazon ELB 如何将请求分发到不同实例类型的 Amazon EC2 实例？
任何人都知道如何 ELB如果我注册多个 EC2 将分发请求不同大小的实例。说一 m1.medium , 一 m1.large和一个 m1.xlarge . 如果我注册EC2会不会不一样相同大小的实例？
amazon-web-services - 用于事件驱动交互的 Amazon AppFlow 与 Amazon EventBridge
Amazon EventBridge 使开发人员能够将第 3 方事件驱动的应用程序与 Amazon 服务连接起来。 Amazon AppFlow 还提供与第 3 方应用程序的事件驱动集成。对于事件驱
amazon-web-services - Amazon Pinpoint 与 Amazon SES/SMS
我想通过电子邮件或短信向特定用户(只有一个)发送验证码。我已经通过 Amazon SES 成功地做到了。但我没有尝试通过Amazon SMS然而。我发现自己陷入了调查的兔子洞AWS Pinpoint
amazon-web-services - Amazon S3 和 Amazon EBS 之间的主要区别是什么
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 6年前关闭。 Improve thi
amazon-web-services - Amazon Glacier 可以镜像 Amazon S3 存储桶吗？
我想使用 Amazon Glacier 镜像 S3 存储桶。 Glacier FAQ状态: Amazon S3 now provides a new storage option that enabl
amazon-s3 - 将 Amazon S3 与 Amazon RDS 结合使用
我正在尝试在 Amazon RDS 上托管数据库，而数据库将存储信息的实际内容(视频)将托管在 Amazon S3 上。我对这个过程有一些疑问，希望有人能帮助我。 Amazon RDS 上托管的数
amazon-web-services - Amazon ECS 和 Amazon EC2 有什么区别？
我刚刚开始使用 AWS EC2。我知道 EC2 就像一台远程计算机，我几乎可以在其中完成我想做的所有事情。后来我知道了ECS。我知道它使用 Docker，但我对这两者之间的关系感到困惑。 ECS 只是
amazon-web-services - Amazon SNS 和 Amazon SQS 有什么区别？
什么时候我会使用 SNS 和 SQS，为什么它们总是耦合在一起？最佳答案 SNS是一个分布式发布-订阅系统。当发布者将消息发送到 SNS 时，消息就会被推送给订阅者。 SQS是分布式排队系统。消息不
amazon-web-services - Amazon S3 和 Amazon EC2 实例有什么区别？
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎不是关于 a specific programming problem, a software
amazon-s3 - 是否可以在 Amazon S3 用户之间共享 Amazon S3 存储桶？
已关闭。这个问题是 off-topic 。目前不接受答案。想要改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。已关闭10 年前。 Improve th
amazon-ec2 - 当我有多个服务器时，我应该在 Amazon EC2 中使用 Amazon VPC
我计划在 amazon EC2 中拥有一个多服务器架构，其中服务器需要相互通信。这些服务器需要位于不同的亚马逊地区(不同的数据中心)。我可以只使用亚马逊ec2的内部网络吗？有哪些安全问题？我是否应该在
amazon-web-services - 允许从 Amazon EC2 实例到 Amazon S3 存储桶的跨账户访问
我在帐户 B 中有 S3 存储桶“跨存储桶”。现在我希望帐户 A 中存在的 EC2 访问帐户 B 中的此存储桶“跨存储桶”。我需要使用 IAM 角色来实现此目的，因为我们不允许创建用户。我已使用以
amazon-s3 - 单页应用程序 + Amazon S3 + Amazon CloudFront + Prerender.io - 如何设置？
我有使用 Backbone.js 构建的单页应用程序。我在 Amazon S3 上托管应用程序(应用程序仅包含静态文件)。我使用 CloudFront 作为 Bucket CDN。应用程序通过
amazon-web-services - 您可以连接到 Amazon 外部的 Amazon ElastiСache Redis 吗？
我可以连接到 ElastiCache来自 EC2 实例的 VPC 中的 Redis 实例。但我想知道是否有办法连接到 Amazon EC2 实例之外的 ElastiCache Redis 节点，例如
amazon-ec2 - Amazon EC2微型实例无响应
我有几个微实例可以正常工作数周。两者都在运行WordPress博客。在过去的24小时内，其中一个已经停止。即使重新启动，我也无法插入。另一个实例工作正常。 ssh: connect to host e
amazon-redshift - Amazon Redshift中的generate_series函数
我尝试了以下方法: SELECT * FROM generate_series(2,4); generate_series ----------------- 2
amazon-s3 - Amazon S3将目录复制到另一个目录
如何使用PHP API将包含子文件夹和文件的文件夹复制/复制到S3存储桶中的另一个目录中？ $s3->copy_object仅复制文件夹，而不复制其中的文件和子文件夹。我是否必须使用$s3->lis

首页

博学

6Ren·AI

商城

amazon-web-services - 从 Google 的 dataproc 读取 S3 数据