gpt4 book ai didi

python - EMR 如何处理 s3 存储桶的输入和输出?

转载 作者:太空宇宙 更新时间:2023-11-03 14:32:00 24 4
gpt4 key购买 nike

我正在启动一个 EMR 集群,并且已经创建了指定的存储桶 in the EMR docs ,但是我应该如何上传数据并从中读取数据?在我的 Spark 提交步骤中,我使用 s3://myclusterbucket/scripts/script.py 说出脚本名称,输出是否不会自动上传到 s3?如何处理依赖关系?我尝试使用 pyfiles 指向 s3 存储桶内的依赖项 zip,但不断返回“文件未找到”

最佳答案

EMR 中的 MapReduce 或 Tez 作业可以直接访问 S3,因为 EMRFS(基于 S3 的 AWS 专有 Hadoop 文件系统实现),例如,在 Apache Pig 中,您可以执行以下操作 loaded_data = LOAD 's3://mybucket/myfile.txt' USING PigStorage();

不确定基于 Python 的 Spark 作业。但一种解决方案是首先将对象从 S3 复制到 EMR HDFS,然后在那里进行处理。

有多种方法可以进行复制:

您还可以使用 awscli (或 hadoop fs -copyToLocal )将对象从 S3 复制到 EMR 主实例本地磁盘(反之亦然),例如 aws s3 cp s3://mybucket/myobject .

关于python - EMR 如何处理 s3 存储桶的输入和输出?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47211002/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com