hadoop - Spark 不会在 yarn-cluster 模式下运行 final `saveAsNewAPIHadoopFile` 方法-6ren

hadoop - Spark 不会在 yarn-cluster 模式下运行 final `saveAsNewAPIHadoopFile` 方法

转载作者：可可西里更新时间：2023-11-01 15:26:24

25

4

我编写了一个 Spark 应用程序，它读取一些 CSV 文件(~5-10 GB)，转换数据并将数据转换为 HFiles。数据从 HDFS 读取并保存到 HDFS。

当我在 yarn-client 中运行应用程序时，一切似乎都工作正常模式。

但是当我尝试以 yarn-cluster 运行它时应用程序，进程似乎没有运行最终saveAsNewAPIHadoopFile对我已转换并准备好保存的 RDD 采取行动!

这是我的 Spark UI 的快照，您可以在其中看到所有其他作业都已处理:

以及相应的阶段:

这是我应用程序的最后一步，其中 saveAsNewAPIHadoopFile方法被调用:

JavaPairRDD<ImmutableBytesWritable, KeyValue> cells = ...

try {
    Connection c = HBaseKerberos.createHBaseConnectionKerberized("userpricipal", "/etc/security/keytabs/user.keytab");
    Configuration baseConf = c.getConfiguration();
    baseConf.set("hbase.zookeeper.quorum", HBASE_HOST);
    baseConf.set("zookeeper.znode.parent", "/hbase-secure");

    Job job = Job.getInstance(baseConf, "Test Bulk Load");
    HTable table = new HTable(baseConf, "map_data");        

    HBaseAdmin admin = new HBaseAdmin(baseConf);        
    HFileOutputFormat2.configureIncrementalLoad(job, table);            
    Configuration conf = job.getConfiguration();        

    cells.saveAsNewAPIHadoopFile(outputPath, ImmutableBytesWritable.class, KeyValue.class, HFileOutputFormat2.class, conf);
    System.out.println("Finished!!!!!");
} catch (IOException e) {
    e.printStackTrace();
    System.out.println(e.getMessage());
}

我正在通过 spark-submit --master yarn --deploy-mode cluster --class sparkhbase.BulkLoadAsKeyValue3 --driver-cores 8 --driver-memory 11g --executor-cores 4 --executor-memory 9g /home/myuser/app.jar 运行应用程序

当我查看 HDFS 的输出目录时，它仍然是空的!我在 HDP 2.5 平台中使用 Spark 1.6.3。

所以我在这里有两个问题:这种行为从何而来(可能是内存问题)？ yarn-client 和 yarn-cluster 模式有什么区别(我还不明白，文档对我来说也不清楚)？感谢您的帮助!

最佳答案

作业似乎没有开始。在启 Action 业 Spark 之前检查可用资源。我认为可用的资源是不够的。因此，请尝试减少配置中的驱动程序和执行程序内存、驱动程序和执行程序内核。您可以在这里阅读如何计算执行者和驱动程序的资源机会值(value):https://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/

您的作业在客户端模式下运行，因为在客户端模式下驱动器可以使用节点上的所有可用资源。但是在集群模式下资源是有限的。

集群模式和客户端模式的区别:
客户:

Driver runs on a dedicated server (Master node) inside a dedicated process. This means it has all available resources at it's disposal to execute work.
Driver opens up a dedicated Netty HTTP server and distributes the JAR files specified to all Worker nodes (big advantage).
Because the Master node has dedicated resources of it's own, you don't need to "spend" worker resources for the Driver program.
If the driver process dies, you need an external monitoring system to reset it's execution.

集群:

Driver runs on one of the cluster's Worker nodes. The worker is chosen by the Master leader
Driver runs as a dedicated, standalone process inside the Worker.
Driver programs takes up at least 1 core and a dedicated amount of memory from one of the workers (this can be configured).
Driver program can be monitored from the Master node using the --supervise flag and be reset in case it dies.
When working in Cluster mode, all JARs related to the execution of your application need to be publicly available to all the workers. This means you can either manually place them in a shared place or in a folder for each of the workers.

关于hadoop - Spark 不会在 yarn-cluster 模式下运行 final `saveAsNewAPIHadoopFile` 方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46240946/

25

4

0

文章推荐： c++ - 无法理解 kern.osversion ‘14.5.0

文章推荐： hadoop - 在不指定列名和列类型的情况下创建一个配置单元表

hadoop-yarn - YARN 中的 yarn-site.xml 与 yarn-default.xml
YARN 中的 yarn-site.xml 与 yarn-default.xml 有什么区别？看起来yarn-default.xml 在Hadoop 2.2 中已被弃用？最佳答案在所有 Hadoo
hadoop-yarn - yarn 自动重启失败的应用程序
我们有一个在 yarn 上运行的流媒体应用程序，我们希望确保它 24/7 全天候运行。有没有办法告诉 yarn 在失败时自动重启特定的应用程序？最佳答案你试过了吗Hadoop Yarn - Re
hadoop-yarn - Yarn - yarn.scheduler.capacity.root.queue-name.maximum-capacity 如何工作？
我在根队列下有 4 个队列，配置如下。 |-------------|-----------------|---------------------|-------------------| | Qu
hadoop-yarn - 如何杀死 YARN 容器以测试失败场景
我正在使用 YARN(和 Dask)版本 Hadoop 2.7.3-amzn-1 在 AWS EMR 上构建应用程序。我正在尝试测试各种故障场景，并且我想模拟容器故障。我似乎找不到一种简单的方法来杀死
hadoop-yarn - 按应用程序名称杀死 yarn 应用程序
我想创建一个 cron 来通过它的应用程序名称杀死一个 yarn 应用程序(Spark)。但我发现 yarn 应用程序 -kill 需要一个应用程序 ID。是否有解决方案可以通过应用程序名称杀死它，或
angular - 即使安装了 Yarn 也找不到模块 'yarn'
我正在尝试从此链接运行通用入门套件:https://github.com/ng-seed/universal即使我按照步骤安装了 Yarn，当我运行命令来运行服务器时，它给了我以下错误: 错误:找不到
hadoop-yarn - 在 YARN 中托管和非托管应用程序管理器有什么区别
我正在尝试 YARN 2.2 中的分布式 Shell 示例，希望有人能澄清托管和非托管应用程序管理器之间的区别是什么？例如以下几行出现在客户端代码中 // unmanaged AM appConte
reactjs - yarn 工作区和 yarn 链接
我有一个像这样的工作区项目: /project - package.json /packages /project-a package.json
reactjs - yarn 构建和 yarn 安装有什么区别？
这两个到底做什么用，在哪里使用它们？ yarn 安装 yarn 构建最佳答案简而言之，yarn install 是用于安装项目所有依赖项的命令，通常在 package.json 文件中分配。在大多
javascript - yarn 升级以修复 yarn 审计错误
所以，到目前为止，似乎没有 yarn audit --fix ，所以我想弄清楚如何修复我的 yarn audit错误。我试过 yarn upgrade它修复了一些错误(这很好)，但仍然存在一些错误。
apache-spark - YARN 无法识别增加的 'yarn.scheduler.maximum-allocation-mb' 和 'yarn.nodemanager.resource.memory-mb' 值
我正在使用一个使用 yarn 的 dockerized pyspark 集群。为了提高数据处理管道的效率，我想增加分配给 pyspark 执行程序和驱动程序的内存量。这是通过将以下两个键值对添加到
linux - 我尝试重新安装 yarn ，但重新安装后我发现这个问题，错误 : Cannot find module '/home/fiii/.yarn/releases/yarn-1.22.17.cjs'
我尝试重新安装yarn，但重新安装后发现这个问题，我尝试搜索互联网但没有找到解决方案。 fiii@neo:~$ yarn --version node:internal/modules/cjs/loa
yarn-v2 - 初始化 yarn 2，添加失败
我正在试验2号纱和植面。我创建了一个新文件夹:/projects/yarn2/根据他们的安装指南https://yarnpkg.com/getting-started我跑了 cd /projects
hadoop - YARN resourcemanager:带有start-yarn.sh的NoClassDefFoundError
我是hadoop和YARN的新手。启动hdfs之后，我使用软件包中提供的start-yarn.sh启动YARN并出现错误。我在Ubuntu 18.04上使用hadoop 3.2.0，jdk-11。
hadoop-yarn - Spark 中的 yarn 客户端模式是什么？
Apache Spark最近更新了版本至0.8.1，新增了yarn-client模式。我的问题是，yarn-client 模式的真正含义是什么？在文档中它说: With yarn-client mod
hadoop - yarn : yarn-site. xml 更改未生效
我们有一个在 HDFS 2.7.3 上运行的 Spark 流应用程序，使用 Yarn 作为资源管理器....在运行应用程序时......这两个文件夹 /tmp/hadoop/data/nm-local
javascript - Hadoop YARN 与 Yarn 包管理器命令冲突
我的机器上的 yarn 命令有问题。我的机器上安装了 hadoop 和 yarn 包管理器(Javascript)。当我运行 yarn init 时，它调用 hadoop 的 YARN 并响应: Er
java - Hadoop YARN 简单 yarn 应用
我正在尝试运行此处列出的简单 yarn 应用程序:https://github.com/hortonworks/simple-yarn-app 我是 Java 和 Hadoop 的初学者，当我尝试使用
hadoop - 指定 YARN 节点标签时 YARN 应用程序无法启动
我正在尝试使用 YARN node labels标记工作节点，但是当我在 YARN(Spark 或简单的 YARN 应用程序)上运行应用程序时，这些应用程序无法启动。使用 Spark，指定 --co
javascript - 如何运行 yarn 应用程序/如何运行 yarn 开发服务器？
我一直只使用 npm 而从不显式使用 yarn/webpack。我需要从这个 repo 运行代码: https://github.com/looker-open-source/custom_visua

首页

博学

6Ren·AI

商城

hadoop - Spark 不会在 yarn-cluster 模式下运行 final `saveAsNewAPIHadoopFile` 方法