java - Reduce 任务被 Hadoop 多节点 (10x) 集群中的太多获取失败消息停止-6ren

java - Reduce 任务被 Hadoop 多节点 (10x) 集群中的太多获取失败消息停止

转载作者：可可西里更新时间：2023-11-01 16:11:11

24

4

我将 Hadoop 1.0.3 用于一个 10 桌面集群系统，每个系统都有 Ubuntu 12.04LTS 32 位操作系统。 JDK 是 7 u 75。每台机器有 2 GB RAM 和 core 2-duo 处理器。

对于一个研究项目，我需要运行一个类似于“字数统计”的 hadoop 作业。我需要对大量数据集运行此操作，例如至少 1 GB 的大小。

我正在尝试使用 hadoop 的示例 jar hadoop-examples-1.0.3.jar 来计算输入数据集的单词数。不幸的是，我无法运行任何输入数据超过 5-6 MB 的实验。

对于输入，我使用来自 https://www.gutenberg.org 的纯文本共振峰故事书.我还使用了来自 https://www.ietf.org 的一些 rfc。 .所有输入均为.txt格式英文书写。

我的系统可以为单个 .txt 文档提供正确的输出。但是，当它有超过 1 个 .txt 文件时，它开始不断地给出错误:

INFO mapred.JobClient: Task Id :      attempt_XXXX, Status : FAILED
Too many fetch-failures

当我使用单节点集群时，数据集也能正常工作。我从以前的 stackoverflow 得到了一些解决方案帖子例如this one和 this one还有更多。但这些都不适合我的情况。根据他们的建议，我更新了/usr/local/hadoop/conf/mapred-site.xml 文件如下:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
<property>
  <name>mapred.job.tracker</name>
  <value>master:54311</value>
  <description>The host and port that the MapReduce job tracker runs
  at.  If "local", then jobs are run in-process as a single map
  and reduce task.
  </description>
</property>
<property>
  <name>mapred.task.timeout</name>
  <value>1800000</value> 
</property>
<property>
  <name>mapred.reduce.slowstart.completed.maps</name>
  <value>0.9</value> 
</property>
<property>
  <name>tasktracker.http.threads</name>
  <value>90</value> 
</property>
<property>
  <name>mapred.reduce.parallel.copies</name>
  <value>10</value> 
</property>
<property>
  <name>mapred.map.tasks</name>
  <value>100</value> 
</property>
<property>
  <name>mapred.reduce.tasks</name>
  <value>7</value> 
</property>
<property>
  <name>mapred.local.dir</name>
  <value>/home/user/localdir</value> 
</property>

</configuration>

在这个文件中，我从 michael-noll's blog 中收集了属性值:“mapred.local.dir”、“mapred.map.tasks”、“mapred.reduce.tasks”。 .我也设置了，

export HADOOP_HEAPSIZE=4000

来自 conf/hadoop-env.sh 文件。

由于我已经将所有10台机器的环境都设置为hadoop-1.0.3，所以如果有人能在不更改hadoop版本的情况下给我解决方案，那将对我更有帮助。

另外我想提一下，我是 hadoop 的新手。我发现了很多关于 hadoop 的文章，但我可以将任何文章修改为该主题的标准。如果有人知道关于 hadoop 的任何信息丰富且真实的文章，请随时与我分享。

提前谢谢大家。

最佳答案

我的问题现在已经解决了。实际上问题出在我的网络设置中。不幸的是，由于我的网络设置错误，Hadoop系统在reduce时无法定位到正确的机器。

正确的网络设置应该是:

在/etc/hosts 文件中应包含以下信息:

localhost 127.0.0.1

::1     ip6-localhost ip6-loopback
fe00::0 ip6-localnet
ff00::0 ip6-mcastprefix
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters

master 192.168.x.x
slave1 192.168.x.y
....

在文件/etc/hostname 中

我们应该只提及写在主机文件中的主机名。例如，在 master 机器中，我们应该在主机名文件中只写一个单词。它是:

master

对于机器slave1，文件应该包含:

slave1

关于java - Reduce 任务被 Hadoop 多节点 (10x) 集群中的太多获取失败消息停止，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30627492/

24

4

0

文章推荐： hadoop - 我的资源管理器没有开放端口 8032 是什么意思？

文章推荐： c# - 用于大量、低延迟 http 请求的异步与线程

文章推荐： performance - 子资源服务器提示 header 不起作用

iphone - 如果我向集合发送 -release 消息，它是否会向它所拥有的所有对象发送 -release 消息？
我一直在读到，如果一个集合“被释放”，它也会释放它的所有对象。另一方面，我还读到，一旦集合被释放，集合就会释放它的对象。但最后一件事可能并不总是发生，正如苹果所说。系统决定是否取消分配。在大多数情况
wcf - 以二进制方式序列化 WCF 消息，而不是作为 SOAP 消息
我有一个客户端-服务器应用程序，它使用 WCF 进行通信，并使用 NetDataContractSerializer 序列化对象图。由于服务器和客户端之间传输了大量数据，因此我尝试通过微调数据成员的
java - 针对特定属性组同步处理 jms 消息，但在其他组中同时处理 jms 消息
我需要有关 JMS 队列和消息处理的帮助。我有一个场景，需要针对特定属性组同步处理消息，但可以在不同属性组之间同时处理消息。我了解了特定于每个属性的消息组和队列的一些知识。我的想法是，我想针对
c++ - #define 打印(消息)std::cout << 消息 << std::endl
我最近开始使用 C++，并且有一种强烈的冲动 #define print(msg) std::cout void print(T const& msg) { std::cout void
java - JGroups:发送(空，空，消息)与发送(地址，空，消息)
我已经为使用 JGroups 编写了简单的测试。有两个像这样的简单应用程序 import org.jgroups.*; import org.jgroups.conf.ConfiguratorFact
javascript - 消息 : This browser doesn't support the API's required to use the firebase SDK.(消息/不支持的浏览器)
这个问题在这里已经有了答案: Firebase messaging is not supported in your browser how to solve this? (3 个回答) 7 个月前关
c# - EntityState 必须设置为 null、Created(对于 Create 消息)或 Changed(对于 Update 消息)
在我的 C# 控制台应用程序中，我正在尝试更新 CRM 2016 中的帐户。IsFaulted 不断返回 true。当我向下钻取时它返回的错误消息如下: EntityState must be set
json - Graylog 服务器无法通过 TCP::GELFDispatcher 读取 Gelf 消息 - 无法处理 GELF 消息::无法解压缩 GELF 消息负载
我正在尝试通过 tcp 将以下 json 写入 graylog 服务器: {"facility":"GELF","file":"","full_message":"Test Message Tcp",
Django 消息，如何隐藏特定消息
我正在使用 Django 的消息框架来指示成功的操作和失败的操作。如何排除帐户登录和注销消息？目前，登录后登陆页面显示已成功登录为“用户名”。我不希望显示此消息，但应显示所有其他成功消息。我的尝试
qt - 如何启用和禁用qDebug()消息
我通过编写禁用qDebug（）消息 CONFIG(release, debug|release):DEFINES += QT_NO_DEBUG_OUTPUT 在.pro文件中。这很好。我想知道是否可以
Laravel throttle 消息
我正在使用 ThrottleRequest 来限制登录尝试。在 Kendler.php 我有 'throttle' => \Illuminate\Routing\Middleware\Throttl
perl - 如何在没有位置信息的情况下输出die()消息？
我有一个脚本，它通过die引发异常。捕获异常时，我想输出不附加位置信息的消息。该脚本: #! /usr/bin/perl -w use strict; eval { die "My erro
rabbitmq - 消息、队列和交换器有哪些限制？
允许的消息类型有哪些(字符串、字节、整数等)？消息的最大大小是多少？队列和交换器的最大数量是多少？最佳答案理论上任何东西都可以作为消息存储/发送。实际上您不想在队列上存储任何内容。如果队列大部
.Net，向没有窗口的命令行进程发送按键/消息？
基本上，我正在尝试创建一个简单的 GUI 来与 Robocopy 一起使用。我正在使用进程打开 Robocopy 并将输出重定向到文本框，如下所示: With MyProcess.StartI
记录 MQ 消息
我想将进入 MQ 队列的消息记录到数据库/文件或其他日志队列，并且我无法修改现有代码。是否有任何方法可以实现某种类似于 HTTP 嗅探器的消息记录实用程序？或者也许 MQ 有一些内置的功能来记录消息？
未显示 primefaces 消息
我得到了一个带有 single_selection 数据表和一个命令按钮的页面。命令按钮调用一个 bean 方法来验证是否进行了选择。如果不是，它应该显示一条消息警告用户。如果进行了选择，它将导航到另
gcc 编译时间注释/消息
我知道 MSVC 可以通过 pragma 消息做到这一点 -> http://support.microsoft.com/kb/155196 gcc 是否有办法打印用户创建的警告或消息？ (我找不到谷
当有大量节点或二进制数据时 Erlang 消息
当存在大量节点或二进制数据时， native Erlang 消息能否提供合理的性能？情况 1:有一个大约 50-200 台机器的动态池(erlang 节点)。它在不断变化，每 10 分钟大约添加或删
登录后 django 消息
我想知道如何在用户登录后显示“欢迎用户，您已登录”的问候消息，并且该消息应在 5 秒内消失。该消息将在用户成功登录后显示一次，但在同一 session 期间连续访问主页时不会再次显示。因为我在 ho
居中添加名称的 sprintf 消息
如果我仅使用Welcome消息，我的代码可以正常工作，但是当打印p->client_name指针时，消息不居中。所以我的问题是如何将消息和客户端名称居中，就像它是一条消息一样。为什么它目前仅将消

首页

博学

6Ren·AI

商城

java - Reduce 任务被 Hadoop 多节点 (10x) 集群中的太多获取失败消息停止