gpt4 book ai didi

hadoop - 将文件从 Amazon s3 复制到 hadoop

转载 作者:可可西里 更新时间:2023-11-01 16:06:12 26 4
gpt4 key购买 nike

我发现了类似的问题,但没有一个能回答我的问题:使用 hadoop distcp 或 s3-dist-cp 在 Hadoop 和 S3 之间移动文件时,我应该在哪里存储凭据?

我创建了一个新的 Amazon EMR 集群,现在我想从 S3 存储桶复制文件。以下方法不起作用:

  1. 使用 hadoop distcp我在 url 中对凭据进行了编码:hadoop distcp s3n://<awsaccesskey>:<awssecrectkey>@<backetname>/path hdfs://<path>但似乎该软件无法处理包含 + 的 aws key 或 / ,这种情况经常发生。使用 url encode 对 key 进行编码不起作用,但会产生另一个错误,例如:

java.lang.IllegalArgumentException: Bucket name must not be formatted as an IP Address

java.lang.IllegalArgumentException: Bucket name should not contain uppercase characters

  1. 使用 s3-dist-cp所以我使用了“更好”的方法,但结果相同。

如果凭据包含特殊字符,我如何对凭据进行编码或将其存储在何处?我还尝试了 ENV 变量(例如 AWS_ACCESS_KEY_ID 和 AWS_SECRET_ACCESS_KEY)但没有成功。一些教程提到了 core-site.xml文件,但没有位置。所以我搜索了它并且有多个匹配项。教程说必须将此文件复制到所有节点,但为什么呢?

最佳答案

您是否尝试过使用特殊字符对 key 进行 URL 编码?

关于hadoop - 将文件从 Amazon s3 复制到 hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36528254/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com