hadoop - Mapreduce 作业 ipc.Client 重试连接-6ren

hadoop - Mapreduce 作业 ipc.Client 重试连接

转载作者：可可西里更新时间：2023-11-01 16:02:48

我正在测试由 4 个 docker 容器组成的 hadoop 集群:

数据节点
辅助名称节点
名称节点
资源经理

当我提交 map reduce 作业时，一旦 map 和 reduce 都达到 100%，我就会注意到连接问题。然后在出错和提供堆栈跟踪之前达到最大重试次数。奇怪的是作业完成并提供了答案。但是，节点管理器 Web 界面显示作业失败。到目前为止，我发现的问题/答案都没有解决我的特定问题。

我所有的机器都公开了端口范围 50100:50200 以符合“yarn.app.mapreduce.am.job.client.port-range”属性。

我提交的作业是

sudo -u hdfs hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.7.1.jar pi 1 1

这是输出:

    Number of Maps  = 1
    Samples per Map = 1
    Wrote input for Map #0
    Starting Job
    16/06/18 19:14:07 INFO client.RMProxy: Connecting to ResourceManager at resource-manager/172.19.0.2:8032
    16/06/18 19:14:08 INFO input.FileInputFormat: Total input paths to process : 1
    16/06/18 19:14:08 INFO mapreduce.JobSubmitter: number of splits:1
    16/06/18 19:14:08 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1466277178029_0001
    16/06/18 19:14:08 INFO impl.YarnClientImpl: Submitted application application_1466277178029_0001
    16/06/18 19:14:08 INFO mapreduce.Job: The url to track the job: http://resource-manager:8088/proxy/application_1466277178029_0001/
    16/06/18 19:14:08 INFO mapreduce.Job: Running job: job_1466277178029_0001
    16/06/18 19:14:15 INFO mapreduce.Job: Job job_1466277178029_0001 running in uber mode : false
    16/06/18 19:14:15 INFO mapreduce.Job:  map 0% reduce 0%
    16/06/18 19:14:19 INFO mapreduce.Job:  map 100% reduce 0%
    16/06/18 19:14:26 INFO mapreduce.Job:  map 100% reduce 100%
    16/06/18 19:14:32 INFO ipc.Client: Retrying connect to server: 01d3c03f829a/172.19.0.4:50100. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1000 MILLISECONDS)
    16/06/18 19:14:33 INFO ipc.Client: Retrying connect to server: 01d3c03f829a/172.19.0.4:50100. Already tried 1 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1000 MILLISECONDS)
    16/06/18 19:14:34 INFO ipc.Client: Retrying connect to server: 01d3c03f829a/172.19.0.4:50100. Already tried 2 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1000 MILLISECONDS)
    16/06/18 19:14:36 INFO mapreduce.Job:  map 0% reduce 0%
    16/06/18 19:14:36 INFO mapreduce.Job: Job job_1466277178029_0001 failed with state FAILED due to: Application application_1466277178029_0001 failed 2 times due to AM Container for appattempt_1466277178029_0001_000002 exited with  exitCode: 1
    For more detailed output, check application tracking page:http://resource-manager:8088/proxy/application_1466277178029_0001/AThen, click on links to logs of each attempt.
    Diagnostics: Exception from container-launch.
    Container id: container_1466277178029_0001_02_000001
    Exit code: 1
    Stack trace: ExitCodeException exitCode=1: 
        at org.apache.hadoop.util.Shell.runCommand(Shell.java:561)
        at org.apache.hadoop.util.Shell.run(Shell.java:478)
        at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:738)
        at org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor.launchContainer(DefaultContainerExecutor.java:213)
        at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:302)
        at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:82)
        at java.util.concurrent.FutureTask.run(FutureTask.java:266)
        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
        at java.lang.Thread.run(Thread.java:745)


    Container exited with a non-zero exit code 1
    Failing this attempt. Failing the application.
    16/06/18 19:14:36 INFO mapreduce.Job: Counters: 0
    Job Finished in 28.862 seconds
    Estimated value of Pi is 4.00000000000000000000

容器日志有以下内容:

    2016-06-18 19:14:32,273 INFO [main] org.apache.hadoop.mapreduce.v2.app.MRAppMaster: Created MRAppMaster for application appattempt_1466277178029_0001_000002
    2016-06-18 19:14:32,443 WARN [main] org.apache.hadoop.util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
    2016-06-18 19:14:32,475 INFO [main] org.apache.hadoop.mapreduce.v2.app.MRAppMaster: Executing with tokens:
    2016-06-18 19:14:32,477 INFO [main] org.apache.hadoop.mapreduce.v2.app.MRAppMaster: Kind: YARN_AM_RM_TOKEN, Service: , Ident: (org.apache.hadoop.yarn.security.AMRMTokenIdentifier@3514a4c0)
    2016-06-18 19:14:32,515 INFO [main] org.apache.hadoop.mapreduce.v2.app.MRAppMaster: Using mapred newApiCommitter.
    2016-06-18 19:14:33,060 INFO [main] org.apache.hadoop.mapreduce.v2.app.MRAppMaster: Attempt num: 2 is last retry: true because a commit was started.
    2016-06-18 19:14:33,061 INFO [main] org.apache.hadoop.yarn.event.AsyncDispatcher: Registering class org.apache.hadoop.mapreduce.v2.app.job.event.JobEventType for class org.apache.hadoop.mapreduce.v2.app.MRAppMaster$NoopEventHandler
    2016-06-18 19:14:33,067 INFO [main] org.apache.hadoop.yarn.event.AsyncDispatcher: Registering class org.apache.hadoop.mapreduce.jobhistory.EventType for class org.apache.hadoop.mapreduce.jobhistory.JobHistoryEventHandler
    2016-06-18 19:14:33,068 INFO [main] org.apache.hadoop.yarn.event.AsyncDispatcher: Registering class org.apache.hadoop.mapreduce.v2.app.rm.ContainerAllocator$EventType for class org.apache.hadoop.mapreduce.v2.app.MRAppMaster$ContainerAllocatorRouter
    2016-06-18 19:14:33,118 INFO [main] org.apache.hadoop.mapreduce.v2.jobhistory.JobHistoryUtils: Default file system is set solely by core-default.xml therefore -  ignoring
    2016-06-18 19:14:33,141 INFO [main] org.apache.hadoop.mapreduce.v2.jobhistory.JobHistoryUtils: Default file system is set solely by core-default.xml therefore -  ignoring
    2016-06-18 19:14:33,162 INFO [main] org.apache.hadoop.mapreduce.v2.jobhistory.JobHistoryUtils: Default file system is set solely by core-default.xml therefore -  ignoring
    2016-06-18 19:14:33,183 INFO [main] org.apache.hadoop.mapreduce.jobhistory.JobHistoryEventHandler: Emitting job history data to the timeline server is not enabled
    2016-06-18 19:14:33,185 INFO [main] org.apache.hadoop.mapreduce.v2.app.MRAppMaster: Will not try to recover. recoveryEnabled: true recoverySupportedByCommitter: false numReduceTasks: 1 shuffleKeyValidForRecovery: true ApplicationAttemptID: 2
    2016-06-18 19:14:33,210 INFO [main] org.apache.hadoop.mapreduce.v2.jobhistory.JobHistoryUtils: Default file system is set solely by core-default.xml therefore -  ignoring
    2016-06-18 19:14:33,212 INFO [main] org.apache.hadoop.mapreduce.v2.app.MRAppMaster: Previous history file is at hdfs://namenode:9000/user/hdfs/.staging/job_1466277178029_0001/job_1466277178029_0001_1.jhist
    2016-06-18 19:14:33,621 INFO [main] org.apache.hadoop.yarn.event.AsyncDispatcher: Registering class org.apache.hadoop.mapreduce.v2.app.job.event.JobFinishEvent$Type for class org.apache.hadoop.mapreduce.v2.app.MRAppMaster$JobFinishEventHandler
    2016-06-18 19:14:33,640 WARN [main] org.apache.hadoop.metrics2.impl.MetricsConfig: Cannot locate configuration: tried hadoop-metrics2-mrappmaster.properties,hadoop-metrics2.properties
    2016-06-18 19:14:33,689 INFO [main] org.apache.hadoop.metrics2.impl.MetricsSystemImpl: Scheduled snapshot period at 10 second(s).
    2016-06-18 19:14:33,689 INFO [main] org.apache.hadoop.metrics2.impl.MetricsSystemImpl: MRAppMaster metrics system started
    2016-06-18 19:14:33,708 INFO [main] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerRequestor: nodeBlacklistingEnabled:true
    2016-06-18 19:14:33,708 INFO [main] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerRequestor: maxTaskFailuresPerNode is 3
    2016-06-18 19:14:33,708 INFO [main] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerRequestor: blacklistDisablePercent is 33
    2016-06-18 19:14:33,739 INFO [main] org.apache.hadoop.yarn.client.RMProxy: Connecting to ResourceManager at resource-manager/172.19.0.2:8030
    2016-06-18 19:14:33,814 INFO [main] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: maxContainerCapability: <memory:4096, vCores:4>
    2016-06-18 19:14:33,814 INFO [main] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: queue: root.hdfs
    2016-06-18 19:14:33,837 INFO [main] org.apache.hadoop.mapreduce.v2.jobhistory.JobHistoryUtils: Default file system is set solely by core-default.xml therefore -  ignoring
    2016-06-18 19:14:33,840 INFO [main] org.apache.hadoop.mapreduce.jobhistory.JobHistoryCopyService: History file is at hdfs://namenode:9000/user/hdfs/.staging/job_1466277178029_0001/job_1466277178029_0001_1.jhist
    2016-06-18 19:14:33,894 INFO [eventHandlingThread] org.apache.hadoop.mapreduce.jobhistory.JobHistoryEventHandler: Event Writer setup for JobId: job_1466277178029_0001, File: hdfs://namenode:9000/user/hdfs/.staging/job_1466277178029_0001/job_1466277178029_0001_2.jhist
    2016-06-18 19:14:33,959 WARN [main] org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException as:hdfs (auth:SIMPLE) cause:java.io.IOException: Was asked to shut down.
    2016-06-18 19:14:33,959 FATAL [main] org.apache.hadoop.mapreduce.v2.app.MRAppMaster: Error starting MRAppMaster
    java.io.IOException: Was asked to shut down.
        at org.apache.hadoop.mapreduce.v2.app.MRAppMaster$4.run(MRAppMaster.java:1546)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:422)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1693)
        at org.apache.hadoop.mapreduce.v2.app.MRAppMaster.initAndStartAppMaster(MRAppMaster.java:1540)
        at org.apache.hadoop.mapreduce.v2.app.MRAppMaster.main(MRAppMaster.java:1473)
    2016-06-18 19:14:33,962 INFO [main] org.apache.hadoop.util.ExitUtil: Exiting with status 1

有几次它说“找不到配置”或“默认文件系统仅由 core-default.xml 设置”。这很重要吗？如果这改变了任何东西，我将使用 cloudera 存储库来安装各种 hadoop 服务，而不是解压缩 .tar.gz。

我的配置文件是:

核心站点.xml

    <configuration>
      <property>
        <name>fs.defaultFS</name>
        <value>hdfs://namenode:9000</value>
      </property>
      <property>
        <name>hadoop.proxyuser.mapred.groups</name>
        <value>*</value>
      </property>
      <property>
        <name>hadoop.proxyuser.mapred.hosts</name>
        <value>*</value>
      </property>
    </configuration>

yar-site.xml

    <configuration>
      <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>resource-manager</value>
      </property>
      <property>
        <name>yarn.resourcemanager.address</name>
        <value>resource-manager:8032</value>
      </property>
      <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>resource-manager:8030</value>
      </property>
      <property>
      <description>Classpath for typical applications.</description>
        <name>yarn.application.classpath</name>
        <value>
          $HADOOP_CONF_DIR,
          $HADOOP_COMMON_HOME/*,$HADOOP_COMMON_HOME/lib/*,
          $HADOOP_HDFS_HOME/*,$HADOOP_HDFS_HOME/lib/*,
          $HADOOP_MAPRED_HOME/*,$HADOOP_MAPRED_HOME/lib/*,
          $HADOOP_YARN_HOME/*,$HADOOP_YARN_HOME/lib/*
        </value>
      </property>
      <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
      </property>
      <property>
        <name>yarn.nodemanager.local-dirs</name>
        <value>file:///data/1/yarn/local,file:///data/2/yarn/local,file:///data/3/yarn/local</value>
      </property>
      <property>
        <name>yarn.nodemanager.log-dirs</name>
        <value>file:///data/1/yarn/logs,file:///data/2/yarn/logs,file:///data/3/yarn/logs</value>
      </property>
      <property>
        <name>yarn.log.aggregation-enable</name>
        <value>true</value>
      </property>
      <property>
        <description>Where to aggregate logs</description>
        <name>yarn.nodemanager.remote-app-log-dir</name>
        <value>hdfs://namenode:8020/var/log/hadoop-yarn/apps</value>
      </property>
      <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>resource-manager:8088</value>
      </property>
      <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>resource-manager:8031</value>
      </property>
      <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>resource-manager:8033</value>
      </property>
      <property>
        <name>yarn.nodemanager.delete.debug-delay-sec</name>
        <value>600</value>
      </property>
      <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>4096</value>
      <description>Amount of physical memory, in MB, that can be allocated for containers.</description>
      </property>
      <property>
        <name>yarn.scheduler.minimum-allocation-mb</name>
        <value>1000</value>
      </property>
    </configuration>

mapred-site.xml

    <configuration>
      <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
      </property>
      <property>
        <name>mapred.job.tracker</name>
        <value>namenode:8021</value>
      </property>
      <property>
        <name>yarn.app.mapreduce.am.staging-dir</name>
        <value>/user</value>
      </property>
      <property>
        <name>mapreduce.jobhistory.address</name>
        <value>history-server:10020</value>
        <description>Enter your JobHistoryServer hostname.</description>
      </property>
      <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>history-server:19888</value>
        <description>Enter your JobHistoryServer hostname.</description>
      </property>
      <property>
        <name>yarn.app.mapreduce.am.job.client.port-range</name>
        <value>50100-50200</value>
      </property>
    </configuration>

hdfs-site.xml

    <configuration>
      <property>
        <name>dfs.permissions.superusergroup</name>
        <value>hadoop</value>
      </property>
      <property>
        <name>dfs.name.dir or dfs.namenode.name.dir</name>
        <value>file:///data/1/dfs/nn,file:///nfsmount/dfs/nn</value>
      </property>
      <property>
        <name>dfs.data.dir or dfs.datanode.data.dir</name>
        <value>file:///data/1/dfs/dn,file:///data/2/dfs/dn,file:///data/3/dfs/dn,file:///data/4/dfs/dn</value>
      </property>
      <property>
        <name>dfs.namenode.http-address</name>
        <value>namenode:50070</value>
        <description>
        The address and the base port on which the dfs NameNode Web UI will listen.
        </description>
      </property>
      <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
      </property>
    </configuration>

感谢阅读。

最佳答案

对于遇到相同问题的任何人，解决方案是将以下内容添加到 hdfs-site.xml:

  <property>
   <name>dfs.safemode.threshold.pct</name>
   <value>0</value>
 </property>

关于hadoop - Mapreduce 作业 ipc.Client 重试连接，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37901108/

文章推荐： http - Firebase 托管，禁用 HTTPS？

文章推荐： c++ - cout 是否保证在静态去初始化期间可用？

文章推荐： ajax - 通过 http 流式传输二进制数据

文章推荐： hadoop - 在 talend 大数据中创建与 hadoop 的连接时出现问题

ipc - Electron IPC : Why is my ipc message not being received?
我的主要流程(重要代码): let introWindow let win = null function createWindow() { // Create the browser win
ipc - 信号量是一种 IPC 机制吗？
信号量是一种 IPC 机制吗？最佳答案是的，在许多平台下，信号量可以跨进程同步。您将为此使用“命名”信号量——多个进程通过名称访问对象，类似于文件系统对象。在 POSIX 中，您可以通过 sem
ipc - 通过管道传输的 Thrift IPC (Windows)
我一直在关注 Thrift 对 Windows 和 VS 开发的支持，感谢许多贡献者，它已经取得了长足的进步。有针对编译器和 C++ 库的 VS 2010 项目，我已经确认它们在 0.8 中运行良好。
ipc - RPC 和 IPC 有区别吗？
或者它们是同义词吗？最佳答案维基百科通常非常适合这些目的。 RPC: Remote procedure call (RPC) is an Inter-process communication t
ipc - 你如何在 Rust 中进行进程间通信 (IPC)？
是否有标准库的一部分？我一直在四处挖掘，但我看不到任何明显的实现它的东西，或者在 Process 上的任何东西可以让你这样做？我错过了吗？还是我必须为此功能做一些 C 包装器工作？ (如果是这样，
ipc - 带有 unix 域套接字的 IPC 是否安全？
我计划在同一主机上运行的两个进程之间为我的 IPC(进程间通信)使用 unix 域套接字。但在选择 unix 套接字之前，我还必须研究数据安全性。我只是想知道如果我使用 unix 套接字而不加密我在
posix - System V IPC 与 POSIX IPC
System V IPC 和 POSIX IPC 之间有什么区别？为什么我们有两个标准？如何决定使用哪些 IPC 函数？最佳答案两者都有相同的基本工具——信号量、共享内存和消息队列。它们提供的
javascript - 即使在 main 中全局分配了 ipc， Electron 菜单仍然显示单击时未定义 ipc
在我的menu.js中的“label:'Database'”下，单击事件返回错误:ipc未定义。我想，如果这是 main.js 文件的一部分，并且如果我已经在全局范围内声明了一个 const 为 ip
docker - 跨 Docker 容器共享内存 : '--ipc=host' vs. '--ipc=shareable'
我正在设置两个 docker 容器 - 一个作为服务器在内存中保存数据，另一个作为客户端访问该数据。为此，我相信我需要使用 --ipc在容器之间共享内存的标志。 Docker documentatio
maven - Flink 错误 - org.apache.hadoop.ipc.RemoteException : Server IPC version 9 cannot communicate with client version 4
我正在尝试使用来自 HDFS 的文件运行 flink 作业。我创建了一个数据集如下 - DataSource> visits = env.readHadoopFile(new TextInputFor
java - 线程 "main"org.apache.hadoop.ipc.RemoteException : Server IPC version 9 cannot communicate with client version 4. 中的异常如何解决？
我在 NetBeans IDE 8.0.2 中使用 hadoop 2.7.0 和 java oracle jdk1.7.0_79。当我尝试使用 Java 文件与 Hadoop 通信时，出现以下错误。是
ipc - 不断地将事件从主进程传递到渲染进程
我一直在使用 Electrons 同步和异步 RPC 通信机制，并且可以很好地在进程之间传递我的数据。但是，我现在需要不断地向渲染器进程发送事件数据(有点像聊天应用程序)并更新一些文本。这在 Ele
ipc - Go如何实现进程间通信？
我正在用 Go 编写一个负载平衡的服务器系统。负载平衡服务器将与多个应用服务器通信并处理请求。这些服务器既可以在同一台机器上运行，也可以在网络上运行。我已经弄清楚了网络，但现在我需要为负载均衡器找
process - IPC 通过写入文件？
我有一个关于操作系统中进程间通信的问题。两个进程是否可以通过打开同一个文件(据说是在两个进程之前创建的，所以两个进程都有文件处理程序)然后通过写入该文件进行通信来相互通信？如果是，这个方法属于什么
ipc - 为什么/何时使用DDS代替ZeroMQ？
Closed. This question is opinion-based。它当前不接受答案。想改善这个问题吗？更新问题，以便editing this post用事实和引用来回答。 6年前关闭。
c - ipcs 的替代品
我有一个使用 System V 共享内存段的应用程序。通常它在内部管理这些，没有人需要接触它们。但对于紧急情况，我们有一个实用程序可以手动清除共享内存段。问题是，为了做到这一点，它运行ipcs，并使
ipc - Node-IPC从服务器向客户端发送消息
当使用node-ipc通过IPC在NodeJS进程之间进行通信时，启动服务器并监听连接，或者创建客户端并连接到服务器似乎非常简单。但是有些事情看起来并不那么简单: How can the serve
c - 带消息传递的 IPC
我正在寻找有关我可以在我自制的 AVR32 板操作系统中实现的可能 IPC 机制的建议。我目前的选择是实现 Tanenbaum 所写书籍中描述的按摩传递机制。这是一个不错的选择吗？有没有更简单的方
ipc - CAN 会发生什么？
我去面试了。面试官问我: If two nodes are sending two messages of the same identifier (0x100) with different dat
ipc - 语言/操作系统之间的进程间通信
我正在寻找一种进程间通信工具，可以在相同或不同系统上运行的语言和/或环境之间使用。例如，它应该允许在 Java、C# 和/或 C++ 组件之间发送信号，并且还应该支持某种排队机制。唯一明显与环境和语言

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

hadoop - Mapreduce 作业 ipc.Client 重试连接