gpt4 book ai didi

apache-spark - 开发人员之间是否可以共享/访问hdfs?

转载 作者:行者123 更新时间:2023-12-02 22:08:17 25 4
gpt4 key购买 nike

我是Bigdata和Hive的新手。
需要与其他开发人员合作使用Spark Streaming应用程序,其中涉及从Kafka读取内容并将其放在hive / hdfs中。其他开发人员使用/指向hdfs的相同位置,读取配置单元文件并进行进一步处理。

我的开发环境是Windows系统上的Eclipse。
其他开发人员环境是他机器上的Eclipse。

由于两者都在同一个文件上工作,因此我们之间是否仍要共享hdfs路径?

请分享在Spark开发团队中如何处理这种情况的细节?

建议最佳做法等

非常感谢,
夏姆

最佳答案

您需要设置多节点hadoop集群并将所有开发人员系统IP配置为数据节点,以便它们可以共享相同的HDFS。

Hadoop的主要Conf文件: core-site.xml,hdfs-site.xml,mapred-site.xml和yarn-site.xml

完成后,您可以通过HDFS安装Hive和Spark。

请引用安装链接:
https://www.linode.com/docs/databases/hadoop/how-to-install-and-set-up-hadoop-cluster/
https://dzone.com/articles/setting-up-multi-node-hadoop-cluster-just-got-easy-2

关于apache-spark - 开发人员之间是否可以共享/访问hdfs?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56643107/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com