gpt4 book ai didi

amazon-web-services - EC2(持久)HDFS 和 EMR( transient )HDFS 如何通信

转载 作者:可可西里 更新时间:2023-11-01 16:35:00 24 4
gpt4 key购买 nike

我已经在 Amazon EC2 上使用 NameNode/DataNode 和其他一些服务设置了一个 Hadoop 集群。我的摄取工作将数据带入 EC2 HDFS 集群(比方说 hdfs://ec2-hdfs/)。

现在我有一个每周批量运行的管道。我正在启动一个新的 Amazon EMR 集群来运行我的计算。处理完成后,我将终止 EMR 集群。

需要在 EMR 中运行的我的 spark 作业的输入位于 EC2 HDFS (hdfs://ec2-hdfs/) 中。如何从新创建的 EMR 集群访问它?我相信在 EMR 集群启动期间应该有一些选项(bootstrap/VPC/子网)可用。

最佳答案

无论何时 EMR 集群启动,您都必须从 core-site.xml 引导 fs.defaultFS 指向持久集群的名称节点,或者您可以在您的代码中显式设置 hdfs://namenode:port:/ec2-hdfs

关于amazon-web-services - EC2(持久)HDFS 和 EMR( transient )HDFS 如何通信,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57051489/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com