gpt4 book ai didi

eclipse - 如何在本地构建和运行 Scala Spark

转载 作者:行者123 更新时间:2023-12-04 06:39:35 25 4
gpt4 key购买 nike

我正在尝试在本地构建 Apache Spark。这样做的原因是调试像reduce这样的Spark方法。特别是我对 Spark 如何在幕后实现和分发 Map Reduce 感兴趣,因为我遇到了性能问题,我认为从源代码运行这些任务是找出问题所在的最佳方法。

所以我从 Spark repo 克隆了最新的:

git clone https://github.com/apache/spark.git

Spark 似乎是一个 Maven 项目,所以当我在 Eclipse 中创建它时,结构如下:

enter image description here

一些顶级文件夹也有 pom 文件:

enter image description here

那么我应该只构建这些子项目之一吗?这些针对本地代码库运行 Spark 的正确步骤是否正确?

最佳答案

在本地构建 Spark,简短的回答:

git clone git@github.com:apache/spark.git
cd spark
sbt/sbt compile

详细讨论您的问题,您实际上要问的是“如何在 Eclipse 中调试 Spark 应用程序”。
要在 Eclipse 中进行调试,您实际上并不需要在 Eclipse 中构建 Spark。您所需要的只是创建一个具有 Spark lib 依赖项的作业并询问 Maven 的“下载源”。这样您就可以使用 Eclipse 调试器单步调试代码。

然后,在创建 Spark Context 时,使用 sparkConfig。 local[1]像大师一样:
val conf = new SparkConf()
.setMaster("local[1]")
.setAppName("SparkDebugExample")

这样所有 Spark 交互都在一个线程中以本地模式执行,因此对您的调试器可见。

如果您正在调查性能问题,请记住 Spark 是一个分布式系统,网络在其中扮演重要角色。在本地调试系统只会给你一部分答案。需要监控实际集群中的作业,以便全面了解您的作业的性能特征。

关于eclipse - 如何在本地构建和运行 Scala Spark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23857841/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com