apache-spark - 通过Web应用程序启动Spark应用程序的最佳实践？-6ren

apache-spark - 通过Web应用程序启动Spark应用程序的最佳实践？

转载作者：行者123 更新时间：2023-12-03 07:27:23

我想通过Web应用程序向用户公开我的Spark应用程序。

基本上，用户可以决定要运行的 Action 并输入一些变量，这些变量需要传递给spark应用程序。
例如:用户输入一些字段，然后单击执行以下“使用参数min_x，max_x，min_y，max_y运行sparkApp1”的按钮。

应该使用用户指定的参数启动spark应用程序。完成后，可能需要Web应用程序检索结果(从hdfs或mongodb)并将其显示给用户。在处理过程中，Web应用程序应显示Spark应用程序的状态。

我的问题:

Web应用程序如何启动Spark应用程序？它可能能够从幕后的命令行启动它，但是可能会有更好的方法来执行此操作。

Web应用程序如何访问Spark应用程序的当前状态？从Spark WebUI的REST API获取状态是否可行？

我正在运行带有YARN / Mesos(尚不确定)和MongoDB的Spark 1.6.1集群。

最佳答案

非常基本的答案:

基本上，您可以使用SparkLauncher类启动Spark应用程序，并添加一些侦听器以监视进度。

但是，您可能对Livy服务器感兴趣，该服务器是用于Spark作业的RESTful服务器。据我所知，齐柏林飞艇正在使用Livy提交工作并获取状态。

您还可以使用Spark REST界面检查状态，信息将更加精确。 Here有一个示例如何通过REST API提交作业

您有3个选择，答案是-自己检查；)这很大程度上取决于您的项目和要求。这两个主要选项:

SparkLauncher + Spark REST接口(interface)

Livy服务器

应该对您有好处，您必须检查一下在项目中更容易使用和更好使用的功能

扩展答案

您可以根据需要和喜好以不同方式在应用程序中使用Spark。

SparkLauncher

SparkLauncher是 spark-launcher Artifact 中的类。就像从Spark Submit中一样，它用于启动已经准备好的Spark作业。

典型用法是:

1)使用Spark作业构建项目并将JAR文件复制到所有节点
2)在您的客户端应用程序(即Web应用程序)中，创建指向准备好的JAR文件的SparkLauncher

SparkAppHandle handle = new SparkLauncher()
    .setSparkHome(SPARK_HOME)
    .setJavaHome(JAVA_HOME)
    .setAppResource(pathToJARFile)
    .setMainClass(MainClassFromJarWithJob)
    .setMaster("MasterAddress
    .startApplication();
    // or: .launch().waitFor()

startApplication创建SparkAppHandle，使您可以添加侦听器并停止应用程序。它还为 getAppId提供了可能性。

SparkLauncher应该与Spark REST API一起使用。您可以查询 http://driverNode:4040/api/v1/applications/*ResultFromGetAppId*/jobs，您将获得有关应用程序当前状态的信息。

Spark REST API

也可以直接通过RESTful API提交Spark作业。用法与 SparkLauncher非常相似，但是它是以纯RESTful方式完成的。

请求示例-本文的鸣谢:

curl -X POST http://spark-master-host:6066/v1/submissions/create --header "Content-Type:application/json;charset=UTF-8" --data '{
  "action" : "CreateSubmissionRequest",
  "appArgs" : [ "myAppArgument1" ],
  "appResource" : "hdfs:///filepath/spark-job-1.0.jar",
  "clientSparkVersion" : "1.5.0",
  "environmentVariables" : {
    "SPARK_ENV_LOADED" : "1"
  },
  "mainClass" : "spark.ExampleJobInPreparedJar",
  "sparkProperties" : {
    "spark.jars" : "hdfs:///filepath/spark-job-1.0.jar",
    "spark.driver.supervise" : "false",
    "spark.app.name" : "ExampleJobInPreparedJar",
    "spark.eventLog.enabled": "true",
    "spark.submit.deployMode" : "cluster",
    "spark.master" : "spark://spark-cluster-ip:6066"
  }
}'

此命令将提交 ExampleJobInPreparedJar类中的作业以与给定的Spark Master群集。在响应中，您将拥有 submissionId字段，这将有助于检查应用程序的状态-只需调用另一个服务: curl http://spark-cluster-ip:6066/v1/submissions/status/submissionIdFromResponse即可。就是这样，仅需编写代码

Livy REST服务器和Spark作业服务器

Livy REST Server和 Spark Job Server是RESTful应用程序，允许您通过RESTful Web Service提交作业。两者与Spark的REST接口(interface)之间的主要区别是Livy和SJS不需要更早地准备作业并将其打包到JAR文件中。您只是提交将在Spark中执行的代码。

用法很简单。代码取自Livy存储库，但进行了一些削减以提高可读性

1)情况1:提交作业，该作业放置在本地计算机中

// creating client
LivyClient client = new LivyClientBuilder()
  .setURI(new URI(livyUrl))
  .build();

try {
  // sending and submitting JAR file
  client.uploadJar(new File(piJar)).get();
  // PiJob is a class that implements Livy's Job
  double pi = client.submit(new PiJob(samples)).get();
} finally {
  client.stop(true);
}

2)情况2:动态作业创建和执行

// example in Python. Data contains code in Scala, that will be executed in Spark
data = {
  'code': textwrap.dedent("""\
    val NUM_SAMPLES = 100000;
    val count = sc.parallelize(1 to NUM_SAMPLES).map { i =>
      val x = Math.random();
      val y = Math.random();
      if (x*x + y*y < 1) 1 else 0
    }.reduce(_ + _);
    println(\"Pi is roughly \" + 4.0 * count / NUM_SAMPLES)
    """)
}

r = requests.post(statements_url, data=json.dumps(data), headers=headers)
pprint.pprint(r.json())

如您所见，既可以预编译作业，也可以对Spark进行临时查询。

水圈雾

另一个Spark即服务应用程序。 Mist非常简单，类似于Livy和Spark Job Server。

用法非常非常相似

1)创建作业文件:

import io.hydrosphere.mist.MistJob

object MyCoolMistJob extends MistJob {
    def doStuff(parameters: Map[String, Any]): Map[String, Any] = {
        val rdd = context.parallelize()
        ...
        return result.asInstance[Map[String, Any]]
    }
}

2)将作业文件打包到JAR中
3)向Mist发送请求:

curl --header "Content-Type: application/json" -X POST http://mist_http_host:mist_http_port/jobs --data '{"path": "/path_to_jar/mist_examples.jar", "className": "SimpleContext$", "parameters": {"digits": [1, 2, 3, 4, 5, 6, 7, 8, 9, 0]}, "namespace": "foo"}'

我在Mist中可以看到的一件事是，它具有通过 MQTT对流作业的开箱即用的支持。

Apache ·托瑞(Apache Toree)

创建 Apache Toree是为了使Spark易于交互分析。它不需要构建任何JAR。它通过IPython协议(protocol)运行，但不仅支持Python。

当前的文档主要集中在Jupyter笔记本支持上，但是也有REST风格的API。

比较和结论

我列出了一些选择:

Spark启动器

Spark REST API

Livy REST服务器和Spark作业服务器

水圈雾

Apache Toree

它们都适用于不同的用例。我可以区分几个类别:

需要作业的JAR文件的工具:Spark Launcher，Spark REST API

用于交互式和预打包作业的工具:Livy，SJS，Mist

专注于交互式分析的工具:Toree(但是可能对预打包的作业有一些支持；目前尚未发布任何文档)

SparkLauncher非常简单，是Spark项目的一部分。您正在用纯代码编写作业配置，因此它比JSON对象更容易构建。

对于完全RESTful样式的提交，请考虑Spark REST API，Livy，SJS和Mist。其中三个是稳定的项目，其中有一些生产用例。 REST API还要求将作业预先打包，而Livy和SJS则不需要。但是请记住，默认情况下，每个Spark发行版中都包含Spark REST API，而Livy / SJS中则没有。我对Mist不太了解，但是-一段时间后-它应该是集成所有类型的Spark作业的非常好的工具。

Toree专注于交互式工作。它仍在孵化中，但是即使现在您仍可以检查它的可能性。

如果内置REST API，为什么还要使用自定义的附加REST服务？像Livy这样的SaaS是Spark的一个切入点。它管理Spark上下文，并且仅在一个节点上，而在群集之外的其他地方。它们还支持交互式分析。 Apache Zeppelin使用Livy将用户代码提交给Spark

关于apache-spark - 通过Web应用程序启动Spark应用程序的最佳实践？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40300222/

文章推荐： intellij-idea - Android Studio 调用红灯泡

java - 为什么Maven在寻找 `webapp\WEB-INF\web.xml`而不是 `web-app\WEB-INF\web.xml`
我有一个几乎可以构建的Maven / Grails应用，但在web.xml上找不到[my-app]\webapp\WEB-INF\web.xml。但是目录结构像往常一样包含web-app文件夹，而不是
web-services - Web 服务和 Web 套接字之间的区别
正如我在标题中提到的:我想知道 web-service 和 web-socket 之间的区别？我们什么时候使用每一个？谢谢! 最佳答案一个web service是一个响应客户端 SOAP/REST
web-services - Web 服务和 Web 应用程序之间的区别
让我们看一个示例场景: 客户端打开一个网站并找到他从文本框中输入的两个数字的总和。然后单击“添加”按钮。两个参数通过 HTTP GET 发送到服务器，在服务器上写入 PHP 代码以添加数字，结果为回声
web-services - Web 服务与 Web 应用程序
我知道这是一个老问题，肯定已经被回答了数百次，但我还无法找到令人满意的答案。我正在创建一个应用程序，其他应用程序(移动/网络)将使用该应用程序来获取数据。现在我有两个选择: 将我的应用程序创建为简单
Azure Web 作业 - 同一 Web 作业中的多个函数和/或同一 Web 应用程序中的多个 Web 作业对性能有何影响？
通过 Web 作业部署新功能有 3 种方法: 创建一个新的 Web 应用，并部署一个包含该函数的 Web 作业。向现有 Web 作业添加一项新函数(这样您现在在一个 Web 作业中就拥有了多个函数)
web - Zabbix web 场景 - 如何在通知中包含 web 响应的内容？
我收到来自网络场景的通知，上面写着“问题”和“确定”。我想在问题发生时包含网络响应的内容。我不担心标题值，只担心网页的内容. 这是我可以在通知设置中引用的变量吗？最佳答案不幸的是 zabbix 不
web-applications - 学习 Web 应用程序的 Web 设计的最佳资源是什么？
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
web-applications - Web 应用程序、基于 Web 的应用程序和云应用程序之间的区别
嗨，这是一个理论问题，但我真的无法弄清楚 Web 应用程序、基于 Web 的应用程序和基于云的应用程序之间的区别。这个你能帮我吗。最佳答案 @Matt 是对的 - 这真的无关紧要，但是，为了清楚起见
web-services - 从网站到 Web 应用程序的 Web 服务消费
我正在尝试使用多个 Web 服务，这些服务在它们的 wsdl 中重新定义了一些相同的公共(public)类。我目前在网站中引用了它们，但我想转换为 Web 应用程序。由于一些相同的类是从多个 Web
web-services - 将 Web 应用程序转换为 Web 服务
一个。我必须考虑哪些事项？b.当前应用程序正在执行多个存储过程。如果我创建等效的方法来执行这些过程，会有什么风险或挑战。最佳答案在架构上，将网络应用程序转换为网络服务时必须考虑的一件事是，对方法和
web-services - RESTful Web 服务的 Web 目录？
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 5年前关闭。 Improve thi
web-services - Web API 和 Web 服务有什么区别？
网络 API 和网络服务之间有什么区别吗？或者它们是同一个吗？最佳答案网络服务通常提供 WSDL您可以从中自动创建客户端 stub 。 Web 服务基于 SOAP protocol 。ASP.NE
web-services - 如何使用网络安全组仅允许我的 Web 应用程序与我的 Web 服务通信
我已经获得了我需要的所有资源。我将 Web 服务放入应用程序服务环境中，然后将 NSG 连接到应用程序服务环境使用的子网。然后，我允许 VNET 内的应用程序与 Web 服务进行通信，但它无法正常工作
web-services - 如何使用网络安全组仅允许我的 Web 应用程序与我的 Web 服务通信
我已经获得了我需要的所有资源。我将 Web 服务放入应用程序服务环境中，然后将 NSG 连接到应用程序服务环境使用的子网。然后，我允许 VNET 内的应用程序与 Web 服务进行通信，但它无法正常工作
web-services - Web 服务测试隔离 - 但何时验证 Web 服务本身？
我正在使用 stub 将我的网络服务相关测试与实际网络服务隔离开来。你/我应该如何合并测试以确保我制作的响应与实际的网络服务匹配(我无法控制它)？我不想知道怎么做，而是何时何地？我应该为测试数据
web-services - WEB API 的 VS WEB 服务？
我在互联网上搜索了很多，但我仍然没有得到网络服务和网络 API 之间的明显区别？我在某处读到所有 Web 服务都是 API，但所有 API 都不是 Web 服务。如何？我所知道的是两者都允许利用其他
java - 将 Web 应用程序移动到 Web 托管/Web 服务器
假设我已经完成了使用 JavaEE 制作的 Web 应用程序。这个 Web 应用程序包含登录系统，但最后它是非常基本的 Web 应用程序。我使用的是 GlassFish 3.1.2.2。我想知道一旦
expression-web - Microsoft Expressions Web 是否支持 Web 应用程序项目？
我希望设计者能够打开与我相同的解决方案文件。这可以通过 Expressions Web 实现吗？最佳答案简短的回答是“不”；但这是一个非常常见的请求，我知道很多人都希望下一个版本(无论何时)对此有
web-services - ColdFusion 在本地计算机而不是 Web 服务器上查找 Web 服务导入语句中的文件
我正在尝试在 CF10 中创建一个 Web 服务对象。我已验证它在 SoapUI 中按预期工作。但是，当我在 CF 中运行它时，我得到一个错误，它无法找到在 WSDL 的导入语句中导入的 XSD。这是
java - Web 服务设计 - 外部 Web 服务和客户端之间的中间 Web 服务
我的要求是开发一个 Web 服务，充当外部 Web 服务和客户端之间的中间人。我知道，我可以为我的服务设计一个wsdl，然后将外部wsdl映射到代码中我的wsdl。我的问题是有一个开源 api/工具

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

apache-spark - 通过Web应用程序启动Spark应用程序的最佳实践？