gpt4 book ai didi

apache-spark - 无法在 Cloudera Quickstart VM 5.3.0 中使用 Cloudera Manager 添加新服务

转载 作者:行者123 更新时间:2023-12-04 21:13:43 28 4
gpt4 key购买 nike

我正在使用 Cloudera Quickstart VM 5.3.0(在 Windows 7 上的 Virtual Box 4.3 中运行)并且我想学习 Spark(在 YARN 上)。

我启动了 Cloudera Manager。在侧边栏中,我可以看到所有服务,有 Spark 但处于独立模式。所以我点击“添加新服务”,选择“Spark”。然后我必须选择这个服务的依赖集,我没有选择我必须选择 HDFS/YARN/zookeeper。
下一步我必须选择一个历史服务器和一个网关,我在本地模式下运行虚拟机,所以我只能选择本地主机。

我单击“继续”并出现此错误(+ 69 条记录):

A server error as occurred. Send the following information to Cloudera.

Path : http://localhost:7180/cmf/clusters/1/add-service/reviewConfig

Version: Cloudera Express 5.3.0 (#155 built by jenkins on 20141216-1458 git: e9aae1d1d1ce2982d812b22bd1c29ff7af355226)

org.springframework.web.bind.MissingServletRequestParameterException:Required long parameter 'serviceId' is not present at AnnotationMethodHandlerAdapter.java line 738 in org.springframework.web.servlet.mvc.annotation.AnnotationMethodHandlerAdapter$ServletHandlerMethodInvoker raiseMissingParameterException()



我不知道是否需要 Internet 连接,但我确切地说我无法使用 VM 连接到 Internet。 (编辑:即使有互联网连接,我也会遇到同样的错误)

我不知道如何添加此服务,我尝试使用或不使用网关,许多网络选项,但从未奏效。我检查了已知问题;没有...

有人知道我如何解决这个错误或我如何解决?谢谢你的帮助。

最佳答案

朱利安,

在回答您的问题之前,我想对 Cloudera Distribution of Hadoop 5 (CDH5) 中的 Spark 做一些一般性说明:

  • Spark 以三种不同的格式运行:(1) 本地,(2) Spark 自己的独立管理器,以及 (3) 其他集群资源管理器,如 Hadoop YARN、Apache Mesos 和 Amazon EC2。
  • 对于 (1) 和 (2),Spark 与 CHD 5 一起开箱即用。您可以发起本地
    使用 spark-shell 在 Scala 中的交互式 Spark session 命令
    pyspark对于 Python,无需传递任何参数。我发现交互式 Scala 和 Python
    口译员帮助学习使用弹性分布式编程
    数据集 (RDD)。

  • 我能够在我的 CDH 5.3.x 发行版上重现您的错误。我并不是要为您发现的错误负责,而是 I posted to the Cloudera developer community for feedback.

    为了在 QuickStart 伪分布式环境中使用 Spark,请使用以下命令查看是否所有 Spark 守护程序都在运行(您可以在 Cloudera Manager (CM) UI 中执行此操作):
    [cloudera@quickstart simplesparkapp]$ sudo service --status-all | grep -i spark
    Spark history-server is not running [FAILED]
    Spark master is not running [FAILED]
    Spark worker is not running [FAILED]

    我已经手动停止了所有独立的 Spark 服务,以便我们可以尝试在 Yarn 中提交 Spark 作业。

    为了在快速启动集群上的 Yarn 容器中运行 Spark,我们必须执行以下操作:
  • 设置 HADOOP_CONF_DIR到包含 yarn-site.xml 的目录的根目录配置文件。这通常是 /etc/hadoop/conf在 CHD5。您可以使用命令 export HADOOP_CONF_DIR="/etc/hadoop/conf" 设置此变量.
  • 使用 spark-submit 提交作业并指定您使用的是 Hadoop YARN。

    spark-submit --class CLASS_PATH --master yarn JAR_DIR ARGS

  • 检查 Hue 中的作业状态并与 Spark History 服务器进行比较。 Hue 应显示放置在通用 Yarn 容器中的作业,Spark History 不应有提交作业的记录。

  • 使用的引用资料:
  • 学习 Spark ,第七章
  • Sandy Ryza's Blog Post on Spark and CDH5
  • Spark Documentation for Running on Yarn
  • 关于apache-spark - 无法在 Cloudera Quickstart VM 5.3.0 中使用 Cloudera Manager 添加新服务,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29348549/

    28 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com