gpt4 book ai didi

apache-spark - 如何设置 HDFS 文件系统以使用 HDFS 运行 Spark 作业?

转载 作者:行者123 更新时间:2023-12-02 20:24:47 24 4
gpt4 key购买 nike

我对使用 Minio/HDFS 以独立模式运行 Spark 很感兴趣。

This question确切地问我想要什么:“我需要一个 HDFS,因此仅使用 Hadoop 的文件系统部分就足够了吗?” - 但接受的答案没有帮助,因为它没有提到如何将 HDFS 与 Spark 一起使用。

我已经下载了为 Apache Hadoop 2.7 及更高版本预构建的 Spark 2.4.3。

我已经按照 Apache Spark 教程成功部署了一台主机(我的本地机器)和一台工作机(我的 RPi4 在同一个本地网络上)。我能够进行简单的字数统计(计算 /opt/spark/README.md 中的字数)。

现在我想计算仅存在于 master 上的文件的字数。我知道我需要为此使用 HDFS 在本地网络上共享文件。但是,尽管阅读了 Apache Spark 和 Hadoop 文档,但我不知道如何执行此操作。

我对 Spark 和 Hadoop 之间的相互作用感到困惑。我不知道我是否应该在 Spark 集群之外设置一个 Hadoop 集群。 This tutorial on hadoop.apache.org似乎没有帮助,因为它说“您需要同时启动 HDFS 和 YARN 集群”。我想以独立模式运行 Spark,而不是 YARN。

我需要做什么才能运行

val textFile = spark.read.textFile("file_that_exists_only_on_my_master")

并将文件传播到工作节点,即在工作节点上没有出现“文件不存在”错误?

最佳答案

我改为设置 MinIO,并在说明中编写了以下 Github Gist。

诀窍是设置 core_site.xml指向 MinIO 服务器。

Github 要点 here

<script src="https://gist.github.com/lieuzhenghong/c062aa2c5544d6b1a0fa5139e10441ad.js"></script>

关于apache-spark - 如何设置 HDFS 文件系统以使用 HDFS 运行 Spark 作业?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57605804/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com