hadoop - 在Hadoop 2.0.0-cdh4.4.0上运行Apache Spark-6ren

hadoop - 在Hadoop 2.0.0-cdh4.4.0上运行Apache Spark

转载作者：行者123 更新时间：2023-12-02 21:26:03

25

4

我有一个带有Hadoop 2.0.0-cdh4.4.0的集群，我需要使用YARN作为资源管理器在其上运行Spark。我从http://spark.apache.org/docs/latest/building-spark.html#specifying-the-hadoop-version获得了以下信息

You can enable the yarn profile and optionally set the yarn.version property if it is different from hadoop.version. Spark only supports YARN versions 2.2.0 and later.

我不想升级整个Hadoop软件包以支持YARN版本2.2.0，因为我的HDFS具有海量数据，并且对其进行升级将导致服务中断时间过长，并且对我来说风险太大。

我认为对我来说最好的选择是使用YARN版本高于2.2.0，同时保持Hadoop其他部分的版本不变。如果这样，我应该遵循什么步骤来获得这样的YARN程序包并将其部署到群集中？

还是有其他方法在YARN作为资源管理器的Hadoop 2.0.0-cdh4.4.0上运行Spark？

最佳答案

从理论上讲，虽然您可以仅升级YARN组件，但我的经验表明，这样做会冒很大的库和其他组件不兼容风险。 Hadoop由很多组件组成，但是它们通常没有应有的解耦，这是CDH，HDP和其他Hadoop发行版仅 bundle 某些已知版本的主要原因之一，并且如果您有商业支持，但请更改他们通常不支持您的内容的版本，因为这样做时，内容往往会中断。

此外，CDH4于去年到期，并且不再由Cloudera进行开发，因此，如果发现任何错误，将很难获得修复(通常会被告知升级到新版本)。我也可以根据经验说，如果您想使用Spark的较新版本(例如1.5或1.6)，那么您还需要Hadoop的较新版本(无论是CDH，HDP还是其他版本)，因为Spark的发展如此之快并提供了YARN后来被固定，因此在Hadoop和Spark的早期版本中存在大量错误和问题。

对不起，我知道这不是您要寻找的答案，但是如果您确实希望工作并且不想花很多时间调试版本不兼容的问题，那么将Hadoop升级到较新版本可能是唯一的选择。

关于hadoop - 在Hadoop 2.0.0-cdh4.4.0上运行Apache Spark，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35936161/

25

4

0

文章推荐： docker - Alpine Linux是Unikernel的实现吗？

文章推荐： ios - 将临时应用提交到Appstore/iTunesConnect

hadoop - cdh 包是如何定义的？
我对 cdh 及其维护方式有疑问: 当我转到与特定 cdh 版本相关的包装信息时，我可以检查每个组件的包装版本(例如 cdh 5.5.5 : https://www.cloudera.com/docu
hadoop - CDH HDFS节点退役永无止境
我们有一个 12 台服务器的 hadoop 集群 (CDH)，最近，我们想停用其中的三台，但是这个进程已经在那里运行了 2 天多了。但它永远不会结束，特别是在过去的 24 小时内，我看到三个数据节点上
hadoop - CDH 组件版本号
我安装了一个 CDH 集群并使用了 hadoop 版本，但它只返回了 Hadoop 版本。有没有办法在图形界面上获取所有已安装组件的版本号？例如，哪个命令可以获取 Spark 版本号？最佳答案打
hadoop - 集群 CDH 安装在下载时卡住
我正在尝试使用 Cloudera Manager 在云服务器上的 3 个节点上设置集群。但在集群安装步骤，它卡在 64%。请指导我如何继续它以及在哪里查看相同的日志。以下是安装屏幕的图像最佳答案
cloudera-cdh - impala 对数组和映射的支持
我使用的是 cdh 5.5.1 中的 impala 2.3 据我了解，这个版本应该支持数组和 map 。我有一个包含数组字段的表(请参见下文) 当我尝试使用 CLI 获取此字段时，我得到:选择列表中
hadoop - Cloudera CDH 演示
Datastax DSE 带有组织良好的 demos . Cloudera CDH5 是否提供类似的东西？最佳答案看看 Cloudera Quickstart VM .它(特别是 Hue)包含一些
macos - Cloudera CDH Mac
我参加了一个将使用 Cloudera CDH 和 Hadoop 等的类(class)。类(class)的当前设置涉及使用带有 VirtualBox 的虚拟机。我只是想知道是否有更快、更有效的程序实
hadoop - CDH 5.1主机IP地址变更
我有一个包含 3 个节点的 CDH 5.1 集群。我们使用cloudera manager自动安装来安装它。在我们将盒子移动到不同的网络并更改 IP 地址之前，它一直运行良好。我尝试了以下步骤 1.
cloudera-cdh - 确保 Impala 查询得到具体化
是否有任何可靠且有效的方法来确保 impala 查询结果得到完全具体化，而无需将结果打印到控制台？作为示例，我将使用 INNER JOIN 查询。具体化查询结果的明显方法是创建表作为选择。 CREA
cloudera - 哪个发行版 CDH 与 HDP
我碰巧在 CDH 工作了很长时间(大约 1 年)，并计划重新开始。现在我们有 CDH、HDP 和 Hortonwork 被 Cloudera 收购。 HDP 是否正在积极开发中？还是CDH正在积极开发
cloudera-cdh - 从可移植二进制文件运行 impala 集群
我正在评估多个大数据工具。其中之一当然是Impala。我想通过在集群节点上手动启动进程来启动 Impala 集群。正如我目前为 Spark、H2O、Presto 和 Dask 所做的那样，我想获取二
hadoop - CDH 4.2.0和Ganglia兼容性
我正在使用CDH 4.2.0群集。为了监视群集，我计划安装Ganglia。我发现link表示Ganglia 3.1与hadoop 0.21.0不兼容。有人可以指导我，哪个版本的Ganglia与CDH
python - Cloudera CDH 5群集的mrjob NoFIleFound异常
尝试在hadoop群集上运行mrjob示例时出现此错误。我已经设置了hadoop_home，还可以在hdfs文件系统上创建一个新目录。如果使用hadoop流，则可以运行python map-red
hadoop - 使用命令行(CDH 5)启动Hadoop服务
我知道如何使用Cloudera Manager界面启动服务，但是我更想知道幕后真正发生的事情，而不是依靠“魔术”。我读过this page，但未提供所需信息我知道有一些.sh文件可以使用，但是它们
hadoop - EC2 上的 Cloudera CDH
我是 aws 新手，我正在尝试通过 Cloudera 的 AMI 在 EC2 上运行 Hadoop。我安装了 AMI，下载了 cloudera-haddop-for-ec2-tools，现在我正在尝试
hadoop - Cloudera Manager 有什么替代方案吗？ (CDH)
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。去年关闭。 Improve this
hadoop - 如何为 hadoop 设置服务器？ (CDH)
我正在使用 AWS EC2 运行 3 个实例(m1.small -- 20GB 硬盘和 1.7GB 内存)。集群上会有hadoop、mapReduce和几个监控进程。我是这样拆分的: 1个主服务器
hadoop - CDH 网络接口(interface)速度抑制
我在 myCentOS 7.1 上配置了 CDH 5.5.2。除了以下与网络相关的警告外，一切都运行良好网络接口(interface)速度抑制... 以下网络接口(interface)似乎未全速运行
hbase - CDH Hue 和 Hbase 身份验证
我是 CDH 新手(我使用的当前版本是 5.7.1) 我已经添加了 HBase thrift 角色并在 Hue 中设置，但我仍然遇到以下问题。 HBase Browser Failed to au
ubuntu - Ubuntu 17上的Cloudera CDH 5.x
可以在Ubuntu 17上安装CDH 5.x吗？根据Cloudera网站的说法，他们一直支持到Ubuntu 16。我不熟悉大数据，所以请原谅我的无知。最佳答案 CDH是Cloudera的发行版，包

首页

博学

6Ren·AI

商城

hadoop - 在Hadoop 2.0.0-cdh4.4.0上运行Apache Spark