gpt4 book ai didi

amazon-ec2 - 使用 s3 作为 fs.default.name 或 HDFS?

转载 作者:可可西里 更新时间:2023-11-01 15:00:51 26 4
gpt4 key购买 nike

我正在 EC2 上设置 Hadoop 集群,我想知道如何进行 DFS。我所有的数据目前都在 s3 中,所有 map/reduce 应用程序都使用 s3 文件路径来访问数据。现在我一直在研究 Amazon 的 EMR 是如何设置的,它似乎为每个作业流设置了一个名称节点和数据节点。现在我想知道我是否真的需要那样做,或者我是否可以只使用 s3(n) 作为 DFS?如果这样做,有什么缺点吗?

谢谢!

最佳答案

为了使用 S3 而不是 HDFS,core-site.xml 中的 fs.name.default 需要指向您的存储桶:

<property>
<name>fs.default.name</name>
<value>s3n://your-bucket-name</value>
</property>

建议您使用 S3N 而不是简单的 S3 实现,因为任何其他应用程序和您自己都可以读取 S3N :)

此外,在同一个 core-site.xml 文件中,您需要指定以下属性:

  • fs.s3n.awsAccessKeyId
  • fs.s3n.awsSecretAccessKey

fs.s3n.awsSecretAccessKey

关于amazon-ec2 - 使用 s3 作为 fs.default.name 或 HDFS?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6271222/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com